第一章 绪论
1.1 引言
机器学习的主要研究内容是学习算法。
学习算法:计算机基于数据学习进而产生模型。
1.2 基本术语
D={x1,x2,...xm}:表示包含 个示例的数据集
xi = (xi1; xi2; . . . ; xid):每个示例由d个属性描述
xi是d维样本空间X中的一个向量,xij 是在第j个属性上的取值,d称为样本xi的维数
计算机从训练集中执行学习算法来得到模型,并使用模型在测试集上进行预测
分类:欲预测的是离散值的学习任务
回归:欲预测的是连续值的学习任务
监督学习:采用有标签的训练集,eg.分类&回归
无监督学习:采用无标签的训练集,eg.聚类
泛化能力:学得模型适用于新样本的能力
1.3 假设空间
1.4 归纳偏好
第二章 模型评估与选择
2.1 经验误差与过拟合
误差:实际预测输出与样本的真实输出之间的差异
训练误差/经验误差:学习器在训练集上的误差
泛化误差:学习器在新样本上的误差
机器学习的目标:得到泛化误差↓ 的学习器
学习器训练样本会产生的问题:过拟合&欠拟合
过拟合:选择的模型包含的参数过多,以至于该模型对于已知数据预测得很好,但是对于未知数据预测的很差,使得训练误差和测试误差之间的差距太大,导致致泛化性能下降。(不容易克服且无法彻底避免)
原因:由于学习能力过于强大,把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质。
欠拟合:选择的模型包含的参数太少,以至于该模型对已知数据都预测的很差,使得训练误差较大。(容易解决)
原因:由于学习能力低下,对训练样本的一般性质尚未学好。
通过对模型的泛化误差进行评估从而选取误差最小的模型进行学习。
2.2 评估方法
用测试集来测试学习器得到的测试误差来近似的表达泛化误差,训练集和测试集都是从样本中采样得到的,并且要求测试样本尽量不在训练集中出现、未在训练过程中使用过。
从数据集中采样得到训练集S和测试集T的方法:
2.2.1 留出法
D=ST,ST= .在训练集S上训练出模型后,用测试集T来评估其测试误差,作为对泛化误差的估计。
注:训练/测试集的划分要尽可能保持数据分布的一致性,例如:可以采用分层采样的方式。
要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
缺陷:评估结果不稳定准确且差别较大
2.2.2 交叉验证法
从D通过分层采样得到子集Di,D = D1
D2
...
Dk, DiDj = (ij),
然
后,每次用
k-1
子集
的并集作
为训练集,
余下
的那个子集作为测
试集,
这样就可获得k
组训练和测
试集,从而可
进行k
次训练和
测试,
最终返回的是这k个
测试
结果
的均值。
通常
把交叉验证
法称为:k折交叉验证,k通常取10。
缺点:
因训练样本规模不同而导致的估计偏差。
当k=m时为留一法。此时,样本只有唯一的划分方式,因此留一法不受随机样本划分方式的影响。
缺陷:计算复杂度较大,时间成本较高。
2.2.3 自助法
以自助采样法为基础,给定包含m个样本的数据集D 我们对它进行采样产生数据集 D',样本在m次采样中始终不被采到的概率是,当m足够大时概率趋近于。
自助法适用于数据集少且难以有效划分训练/测试集的时候,而且多用于集成学习中。
2.2.4 调参与最终模型
验证集:模型评估与选择中用于评估测试的数据集。
通常先将数据集划分出训练集和测试集,然后再对训练集划分出训练集和新的训练集,新的训练集就是验证集,基于验证集的测试结果来调整参数,最后将验证集合并进训练集,基于最优参数在合并的训练集上进行训练,再用测试集评估模型的性能。(训练过程中可以使用的只有训练集和验证集)
2.3 性能度量
性能度量:衡量模型泛化能力的评价标准
回归中一般使用均方误差来度量模型性能:
2.3.1 错误率与精度
错误率和精度多用于分类任务中。
对样例集D,分类错误率定义为
精度定义为
2.3.2 查准率、查全率与Fl
查重率:预测为正的样本中有多少是真正的正样本。
查全率:样本中的正例有多少被预测正确了。
查准率和查全率是一对矛盾的度量。
P-R图直观的显示出学习器在样本总体上的查全率和查准率。
若一个学习器的 P-R 曲线被另一个学习器的曲线完全包住,则代表后者的性能优于前者。
若两个学习器
P-R
曲线发生了交叉,则
比较
P-R
曲线节面积的大小。
为了直观的度量不同学习器之间查准率和查重率的性能,引入平衡点(BEP)的概念。BEP为
查准率等于查全率时候的取值。BEP大的学习器性能较优。
另一个考察
查准率和查重率的性能的度量为F1:
为了表达出对查准率/查全率的不同偏好引入了F1度量的一般形式 :Fß
ß>1时查全率有更大影响,0<ß <1 时查准率有更大影响。
针对混淆矩阵有两种度量方案:
2.3.3 ROC AUC
2.3.4 代价敏感错误率与代价曲线
2.4 比较验证
2.4.1 假设检验
2.4.2 交叉验证 检验
2.4.3 McNemar 检验
2.4.4 Friedman 检验与 nenyl 后续检验
2.5 偏差与方差