机器学习笔记-第二章模型评估与选择2

比较检验

对学习结果进行性能比较,本节默认以错误率为性能度量,用 ϵ \epsilon ϵ表示。

1 假设检验

泛化错误率 ϵ \epsilon ϵ:在一个样本上犯错的概率是 ϵ \epsilon ϵ
测试错误率 ϵ ^ \hat{\epsilon} ϵ^:在 m m m个测试样本中恰有 ϵ ^ × m \hat{\epsilon}\times m ϵ^×m个被误分类。

泛化错误率为 ϵ \epsilon ϵ的学习器将其中 m ′ m' m个样本误分类、其余样本全部分类正确的概率是 ϵ m ′ ( 1 − ϵ ) m − m ′ \epsilon^{m'}(1-\epsilon)^{m-m'} ϵm(1ϵ)mm
ϵ ^ × m \hat{\epsilon}\times m ϵ^×m个样本误分类的概率为:(在包含 m m m个样本的测试集上,泛化错误率为 ϵ \epsilon ϵ学习器被测得测试错误率为 ϵ ^ \hat{\epsilon} ϵ^的概率)
P ( ϵ ^ ; ϵ ) = ( m ϵ ^ × m ) ϵ ϵ ^ × m ( 1 − ϵ ) m − ϵ ^ × m P(\hat{\epsilon};\epsilon)=\left( \begin{array}{c} m \\ \hat{\epsilon}\times m \end{array} \right)\epsilon^{\hat{\epsilon}\times m}(1-\epsilon)^{m-\hat{\epsilon}\times m} P(ϵ^;ϵ)=(mϵ^×m)ϵϵ^×m(1ϵ)mϵ^×m

  • 方法一:二项检验
    一次留出法估计:

    结论:
    请添加图片描述
  • 方法二:t 检验
    交叉验证法:
    在这里插入图片描述
    结论:
    对假设“ μ = ε 0 \mu=\varepsilon _{0} μ=ε0”和显著度 α \alpha α,计算当测试错误率均值为 ε 0 \varepsilon _{0} ε0时,在 1 − α 1-\alpha 1α概率内的最大错误率,即为临界值。使用双边t检验。
2 交叉验证 t t t检验

针对多个学习器,使用k折交叉验证“成对t检验”,验证 ε i A = ε i B \varepsilon _i^A=\varepsilon _i^B εiA=εiB.

3 McNemar检验

针对二分类问题,列出两学习器分类差别列联表,假设两学习器性能相同,McNemar检验考虑变量 ( ∣ e 01 − e 10 ∣ ) 2 e 01 + e 10 \frac{(|e_{01}-e_{10}|)^2}{e_{01}+e_{10}} e01+e10(e01e10)2服从自由度为1的卡方分布,给定显著度 α \alpha α,当以上变量小于临界值 χ α 2 \chi_{\alpha}^2 χα2时,不能拒绝假设,否则认为两者性能有显著差别,且平均错误率较小的那个学习器性能较优。

4 Friedman检验与Nemenyi后续检验

前两个检验方法都是在一个数据集上进行比较两个算法,该节方法适用于比较多个算法。Friedman检验使用服从自由度为 k − 1 k-1 k1 ( k − 1 ) ( N − 1 ) 的 F (k-1)(N-1)的F (k1)(N1)F分布,当假设被拒绝时,再使用Nemenyi后续检验。

偏差与方差

泛化误差可分解为偏差、方差与噪声之和。

  • 偏差:度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;
  • 方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;
  • 噪声:表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
    泛化误差与偏差、方差的关系示意图
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值