比较检验
有了实验评估方法和性能度量后,我们可以对学习器的性能进行评估比较,但实际上要对学习器进行比较远比“比性能大小”复杂。统计假设检验(hypothesis test)为我们学习器性能比较提供了重要依据。
假设检验
(泛化错误率为
ϵ
ϵ
的学习器在一个样本上犯错的概率是
ϵ
ϵ
;测试错误率
ϵ^
ϵ
^
意味着在
m
m
个测试样本中恰有个被误分类)
假设检验中“假设”是对学习器泛化错误率分布的某种判断或猜想,例如“
ϵ=ϵ0
ϵ
=
ϵ
0
”。现实任务中我们并不知道学习器的泛化错误率
ϵ
ϵ
,只能获知其测试错误率
ϵ^
ϵ
^
,而两者相差很远的可能性比较小。因此,可根据测试错误率推出泛化错误率。
若泛化错误率为
ϵ
ϵ
的学习器将其中
m′
m
′
个样本误分类,其余样本全部分类正确的概率为
ϵm′(1−ϵ)m−m′
ϵ
m
′
(
1
−
ϵ
)
m
−
m
′
;由此估算出将有
ϵ^×m
ϵ
^
×
m
个样本误分类的概率,它表示在包含
m
m
个样本的测试集上,泛化错误率为的学习器被测得测试错误率为
ϵ^
ϵ
^
:
给定测试错误率,则解 ∂P(ϵ^;ϵ)∂ϵ=0 ∂ P ( ϵ ^ ; ϵ ) ∂ ϵ = 0 可知, P(ϵ^;ϵ) P ( ϵ ^ ; ϵ ) 在 ϵ=ϵ^ ϵ = ϵ ^ 是最大, |ϵ−ϵ^| | ϵ − ϵ ^ | 增大时 P(ϵ^;ϵ) P ( ϵ ^ ; ϵ ) 减小,符合二项(binomial)分布。
交叉验证t检验
Mcnemar检验
Friedman检验与Nemenyi后续检验
偏差与方差
“偏差-方差分解”(bias-variance decomposition)是解析学习算法泛化性能的一种重要工具。算法在同一个分布的不同训练集上学得的结果很可能不同。
对测试样本
x
x
,令为
x
x
在数据集中的标记,为
x
x
的的真实标记,为训练集
D
D
上学得模型在
x
x
上的预测输出(有可能出现噪声使得)
以回归任务为例,学习算法的期望预测为(E是期望值,就是随机变量的平均值)