机器学习复习(二):模型评估与选择
经验误差与过拟合
(分类任务)
错误率:分类错误的样本数占样本总数的比例
相应的,精度(准确率):=1-错误率
误差(误差期望):学习器的实际预测输出与样本的真实输出间的差异
- 训练误差(经验误差):学习器在训练集上的误差
- 泛化误差:学习器在新样本上的误差
希望泛化误差最小,但实际上因为不知道新样本,无法直接获得泛化误差
过拟合:学习器把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降
欠拟合:对训练样本的一般性质尚未学好
过拟合无法彻底避免,只能“缓解”
评估方法
训练集S,测试集(验证集)T
测试误差,作为泛化误差的近似
留出法、交叉验证法、自助法
在样本D( ∣ D ∣ = m |D|=m ∣D∣=m)中产生训练集S,测试集T:
- 留出法
- S、T互斥:$D=S \bigcup T,, S\bigcap T=\emptyset $
- 数据分布一致性
- 分层采样:保留类别比例
- 若干次随机划分、重复进行实验评估后取平均值
- S/T比例
- 交叉验证法(k折交叉验证法)
- D = D 1 ⋃ D 2 ⋃ ⋯ ⋃ D k , D i ⋂ D j = ∅ ( i ≠ j ) D=D_1\bigcup D_2 \bigcup \dots \bigcup D_k,\,D_i\bigcap D_j=\emptyset \,(i \not =j) D=D1⋃D2⋃⋯⋃Dk,Di⋂Dj=∅(i=j), D i D_i Di都尽可能保持数据分布一致性,即从 D D D中通过分层取样得到
- 每次用 k − 1 k-1 k−1个子集的并集作为训练集,余下的子集作为测试集;则获得 k k k组 S / T S/T S/T,进行 k k k次训练和测试最终返回 k k k个测试结果的平均值
-
k
=
m
k=m
k=m,留一法
- 比较准确
- 缺陷:数据集较大时,计算开销大
- 自助法(重复采样法、有放回采样法)
- D中约有36.8%的样本未出现在采样数据集 D ′ D' D′
-
D
′
D'
D′:训练集,
D
−
D
′
D-D'
D−D′=测试集
- 包外估计
- 优:
- 数据集较小、难以有效划分训练/测试集时很有用
- 能从初始训练集中产生多个不同的训练集,利于集成学习
- 缺:
- 改变了初始数据集的分布,引入估计偏差。因此,初始数据量足够时,留出法和交叉验证法更常用
调参与最终模型
两类参数:算法的参数(“超参数”),模型的参数
- 同:调参方式相似,均是产生多个模型之后基于某种评估方法来进行选择
- 异:
- 超参数:由人工设定多个参数候选值后产生模型
- 模型参数:通过学习来产生多个候选模型
性能度量
衡量模型泛化能力的评价标准
回归任务
均方误差:
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 . E(f;D)=\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2. E(f;D)=m1∑i=1m(f(xi)−yi)2.
分类任务
错误率:
E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) . E(f;D)=\frac{1}{m}\sum_{i=1}^mI(f(x_i)\not =y_i). E(f;D)=m1∑i=1mI(f(xi)=yi).
精度(准确率):
KaTeX parse error: {split} can be used only in display mode.
查准率、查全率
混淆矩阵:
查准率:
挑出的西瓜中有多少比例是好瓜
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
查全率:
所有好瓜中有多少比例被挑了出来
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
P − R P-R P−R曲线
- 包住
- 交叉
- 面积
- 平衡点 B E P BEP BEP
F 1 F1 F1度量
不考,不作为重点
查准率和查全率的调和平均:
1 F 1 = 1 1 + 1 ( 1 P + 1 R ) \frac{1}{F1}=\frac{1}{1+1}(\frac{1}{P}+\frac{1}{R}) F11=1+11(P1+R1)
查准率和查全率的加权调和平均:
1 F β = 1 1 + β 2 ( 1 P + β 2 R ) \frac{1}{F_\beta}=\frac{1}{1+\beta^2}(\frac{1}{P}+\frac{\beta^2}{R}) Fβ1=1+β21(P1+Rβ2)
β > 0 \beta>0 β>0:度量查全率R对查准率的相对重要性
- 宏查准率、宏查全率,宏 F 1 F1 F1、宏 F β F_\beta Fβ
- 微查准率、微查全率,微 F 1 F1 F1、微 F β F_\beta Fβ
偏差与方差
泛化误差=偏差+方差+噪声
- 偏差
- 度量学习算法的期望预测与真实结果的偏离程度
- 刻画学习算法本身的拟合能力
- 方差
- 度量同样大小的训练集的变动所导致的学习性能的变化
- 刻画数据扰动所造成的影响
- 噪声
- 表达在当前任务上任何学习算法所能达到的期望泛化误差的下界
- 刻画了学习问题本身的难度