目录
第一章 绪论
1.机器学习的主要内容
机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即“学习算法”(Learning algorithm)
2.基本术语
数据集:这些记录的集合成为数据集
示例:数据集中每条记录是关于一个事件或对象的描述,称为“示例”或“样本”
属性:反映事件或对象在某方面的表现或性质的事项,例如:“色泽”、“根蒂”等
属性值:属性上的取值,例如“青绿”、“蜷缩”等
特征空间:例如把“色泽”、“根蒂”、“敲声”作为三个坐标轴,就会形成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,空间中的每个点就对应一个坐标向量,因此可以把一个实例称为一个“特征向量”(数据向量化是机器学习的重要步骤)
维数:样本空间D中包含了m个示例,每个示例中是d维的样本空间,d称为维数。
3.机器学习分类
监督学习:样本有标记(如是否为好瓜)
欲预测的是离散值,此类学习任务称为“分类”
欲预测的是连续值,此类学习任务称为“回归”
无监督学习:样本无标记
聚类是无监督学习的典型代表
4.模型的泛化能力
泛化能力是指学得模型适用于新样本的能力,能够反映出样本空间特性的训练集越有可能经过学习得到具有强泛化能力的模型。一般而言,训练样本越多,我们得到的关于未知分布的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。
归纳和演绎是科学推理的两大基本手段。前者从特殊到一般,从具体的事实归结出规律;后者则是一般到特殊,由基础原理推导出具体情况。“从样例中学习”的机器学习是一种归纳学习。
第二章 模型的评估与选择
1.经验误差与过拟合
训练误差(training error)即经验误差(empirical error):学习器在训练集上的误差。
泛化误差(generalization error):学习器在新样本上的误差。
过拟合(over fitting):把训练样本的一些特点当作所有潜在样本的一般性质,导致泛化能力下降。
欠拟合(under fitting):训练样本的一般性质尚未学好。
2.评估方法
2.1留出法(hold-our)
留出法直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。
D=S∪T, S∩T=∅
(训练集和测试机应尽量保证数据分布的一致性,避免因数据划分过程引入的额外偏差而对最终结果产生影响。)
2.2交叉验证法(cross validation)
先将数据集划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用k - 1 个自己的并集作为训练集S,剩下的那个作为测试集,这样就能获得 k组训练集/测试集,从而可以进行k轮训练和测试,最终返回的结果是k个测试结果的均值。
(显然,交叉验证的结果的稳定性和保真性很大程度上取决于k的大小。)
2.3自助法(bootstrapping)
自助法以自助采样(有放回采样)为基础。给定m个样本构成数据集D,对其采样得到数据集D’ :每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集中,使得该样本在下次采样的时候仍有可能被采到;重复执行m次,得到有m个样本的D’。
显然,D中的有一部分样本会在D’中多次出现,另一部分样本不会出现。
样本在m次采样中始终不被采到的概率为
(
1
−
1
/
m
)
m
(1-1/m)^m
(1−1/m)m
取极限得到
l
i
m
(
m
→
∞
)
(
1
−
1
/
m
)
m
=
1
/
e
lim(m→∞) (1-1/m)^m=1/e
lim(m→∞)(1−1/m)m=1/e
因此,在实际评估的模型和期望评估的模型中都使用m个训练样本,仍有数据总量1/e的、没在训练集出现过的样本用于测试。这样的结果被称为包外估计(out-of-bag estimate)。
2.4调参与最终模型
测试集:用于评估学习器泛化能力。
验证集(validation set) :基于验证集上的性能来进行模型的选择和调参。
3性能度量(performance measure)
3.1 错误率和精度
3.2 查准率(precision)和查全率(recall) 和F1
对于二分类问题,可根据其真实类别和学习器预测类别的组合分为真正例(true positive),假正例(false positive),真反例(true negative),假反例(false positive)。
- 查准率:在所有查为positive中true的概率
P = T P / ( T P + F P ) P = T P / ( T P + F P ) P=TP/(TP+FP)
- 查全率:在所有true中positive的概率
R = T P / ( T P + T N ) R = T P / ( T P + T N ) R=TP/(TP+TN)
-
PR曲线:若一个学习器的PR曲线能够被另一个学习器完全“包住”说明后者的性能优于前者。
-
平衡点度量(BEP,break-even point):查准率 = 查全率的取值。
-
F1度量:基于查准率和查全率的调和平均(倒数平均)
F 1 = ( 2 × P × R ) / ( P + R ) = ( 2 × T P ) / ( 样例总数 + T P − T N ) F1=(2×P×R)/(P+R)=(2×TP)/(样例总数+TP-TN) F1=(2×P×R)/(P+R)=(2×TP)/(样例总数+TP−TN)
-
若进行了多次的训练/测试,得到多个二分类混淆矩阵
-
宏查准率与宏查全率 :先在各个混淆矩阵上分别计算出准确率和召回率( P 1 , R 1 ) , ( P 2 , R 2 ) , ( P 3
, R 3 ) , . . . , ( P n , R n ) ,
然后计算期望,得到宏准确率(macro-P)和宏召回率(macro-R)和宏F1。 -
微查准率和微查全率:
先将各个混淆矩阵的对应元素进行平均,得到平均后的TP,FP,TN,FN.然后计算微查准率(micro-P)和微查全率(micro-R)和微F1。
3.3 ROC和AUC
-
ROC (Receiver Operating Characteristic) 纵轴:真正例率(True Positive
Rate),横轴:假正例率(False Positive Rate) -
AUC(Area Unger ROC Curve):ROC曲线的面积
估算公式:
3.4代价敏感错误率与代价曲线
代价敏感的错误率计算:
4.比较检验
4.1 假设检验