一、简介
1.监督学习
(1)回归:Y是连续的,且通过Y可以计算距离
(2)分类:Y之间是无序的,且不能进行大小比较
如:天气预报预测是否下雨:分类问题
股票预测交易量:回归问题
2.非监督学习
无标签y,主要应用于降维、数据压缩、正常情况建模、分割、聚类、密度估计等等
如:通过年龄预测孩子身高:监督回归
对邮件进行垃圾分类:非监督、聚类
通过文章集作者性别判断作者性别:监督分类
二、机器学习基本流程
1.选择一个模型,如
f
(
x
)
=
a
x
+
b
f(x)=ax+b
f(x)=ax+b
2.选择一个误差函数:如
l
o
s
s
=
1
n
∑
i
=
1
n
(
y
i
−
f
(
x
i
)
)
2
loss={1\over n}\sum^n_{i=1}(y_i-f(x_i))^2
loss=n1∑i=1n(yi−f(xi))2
3.优化误差函数从而求得模型参数
流程图:
1.数据
(1)数据清洗:消除错误和噪声、消除冗余
(2)过程:重命名、缩放(标准化)、离散化、抽象、聚合、新特性
设计环节:
2.特征选择
对每个维度选择特征对分类器效果的影响
3. 模型选择
(1)模型选择可能存在的问题:
1)泛化性不足:需要在全部数据样本求得误差,这个误差叫泛化误差,来衡量泛化性能
2)过拟合:过拟合体现在训练误差小,测试误差大,原因是模型参数过多或者数据样本量小。
避免过拟合的方法:使用大量数据样本、同验证集做模型选择、使用正则化Occam’s Razor
(欠拟合体现在训练误差大,测试误差也大)
(2)模型举例:
1)KNN:目的是将一个测试数据进行分为两类,与所有训练样本计算距离,选出与待测样本最近的K个样本,这K个样本标签大多数为什么,就将其赋予待测样本。
2)决策树 DT:深度越深,复杂度越大
3)多项式回归:多项式阶数越大,复杂度越大
(3)模型选择的方法
通过验证集评估模型
1)留出法(hold-out):将数据集划分为训练集和验证集两个集合,使用训练集数据对模型进行训练,使用验证集选择验证集的误差最小的模型。
缺点:用于训练的样本量减少了,分验证集和训练集时存在随机性
2)交叉验证法(cross validation)k折交叉验证
将训练集分为k份,每次选一份作为验证集,其余作训练集 ,进行k次训练和测试,最终训练出k个模型。
3)留一法:K折交叉验证的特例,将数据集一个样本作为一份
正则化项
4) 通过正则化方式限制多项式自由度达到减少参数问题:
‘+’左边为正常的目标函数,
λ
\lambda
λ称为规范化参数,
λ
2
∥
w
∥
2
{\lambda \over 2}\|w\|^2
2λ∥w∥2称为正则化项
4. 学习过程:求w
(1)定义损失函数:极大似然,最大后验,hinge loss等
(2)优化:凸优化、牛顿法、梯度下降、共轭梯度
5.评价
平方损失、误分率等
三、概率论、决策论、信息论
1.概率论
(1)贝叶斯理论:由先验知识通过观察得到后验
(2)期望:
(3)方差:
2.统计决策论
推断部分计算后验概率和似然估计
决策部分,通过输入观测,决策输出。误分类概率等衡量方法把x赋予有最大后验概率的类别
推断与决策分开的原因:减小误分类概率,可以调整拒识阈值,解决类别不均衡问题,合并模型
决策的三种方法:(1)先建模算联合概率,后通过贝叶斯算后验概率(2)直接建模后验概率
3.信息论
熵:表示数据的混乱程度
信息熵、微分熵(针对连续随机变量)、条件熵、交叉熵