文章目录
一、概述
比较检验的重要方法是统计假设检验,它为我们进行学习器性能比较提供了重要依据。
- 统计假设检验:
- 假设检验步骤:
- 带入机器学习:
二、 具体检验方法
1. 估计假设精度
区分两种错误率:
errors(h)在何种程度上提供了对errorD(h)的估计?
2. 采样理论基础
在样本错误率和真实错误率之间的差异与数据样本大小的依赖关系如何?
-
符合二项分布(离散值):
- 期望或均值:np
- 标准差:(np*(1-p))^(1/2)
-
估计偏差:
针对任意参数p的估计量Y的估计偏差为:E(Y)- P
如果估计偏差为0,我们称Y为P的无偏估计量。
- 对于二项分布,r的期望值为np。由此,并且因为n为一常数,那么 r/n 的期望值为P
- 一般来说,若在n个随机选取的样本中有r个错误,errors(h)的标准差为:
- 置信区间:
某个参数p的N%置信区间是一个以N%的概率包含P的区间
- 对于足够大的样本,二项分布可以很好的由正态分布来近似。
- 双侧和单侧边界:
3. 多次训练/测试的检验 - t检验
T的等式中,μ为测试错误率的均值;服从自由度为k-1的t分布(t分布是取样,正态分布是全体;当样本量趋于无穷大时,t分布就是正态分布)。
4. 交叉验证t检验
1. 基本思路
- 对这 k 个差值对 “学习器A和B的性能相同” 这个假设做 t 检验:
- 做5次2折交叉验证:在每次2折交叉验证之前随机将数据打乱,使得5次交叉验证中的数据划分不重复。
5. MCNemar检验
McNemar主要用于二分类问题,是用于比较两个学习器的性能大小
6.Friedman检验和Nemenyi后续检验
- Friedman检验:
- Nemenyi后续检验:
1.上式中,k为算法个数,N为数据集个数 ,qa值查表得到