初步理解机器学习评估(二)

由于菜狗本狗还没学概率论,接下来还会有一些概率论的知识,先补一波:
自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。
啥意思呢,举个例子:
有一个有4个数据( n=4)的样本,其平均值m等于5,即受到 m=5的条件限制,在自由确定4、2、5三个数据后, 第四个数据只能是9,否则 m!=5。因而这里的自由度df = 3 。推而广之,任何统计量的自由度 df = n - k (k为限制条件的个数)。
t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。
t分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。
显著性检验(significance test)就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。或者说,显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。 显著性检验是针对我们对总体所做的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设。
显著性检验即用于实验处理组与对照组或两种不同处理的效应之间是否有差异,以及这种差异是否显著的方法。
常把一个要检验的假设记作H0,称为原假设(或零假设) (null hypothesis) ,与H0对立的假设记作H1,称为备择假设(alternative hypothesis) 。
⑴ 在原假设为真时,决定放弃原假设,称为第一类错误,其出现的概率通常记作α;
⑵ 在原假设不真时,决定不放弃原假设,称为第二类错误,其出现的概率通常记作β
(3)α+β 不一定等于1 [1] 。
通常只限定犯第一类错误的最大概率α, 不考虑犯第二类错误的概率β。这样的假设 检验又称为显著性检验,概率α称为显著性水平。
最常用的α值为0.01、0.05、0.10等。一般情况下,根据研究的问题,如果放弃真假设损失大,为减少这类错误,α取值小些 ,反之,α取值大些。
x 2 分 布 : x^2分布: x2
在这里插入图片描述
—————————————————一条可爱的分割线————————————————————————————
终于到正题了:

比较检验
测试性能不等于泛化性能
测试性能会随着测试集的变化而变化
机器学习算法的随机性
成对双边t检验:
对于分类器A和B,先对每个结果求差,然后根据差值做t检验,计算出差值的均值,方差以及统计量
在这里插入图片描述
在这里插入图片描述
当我们比较多个分类器的性能时,需要使用基于排序的Friedman检验:
要在N个数据集上比较k个算法,对每个数据集根据性能进行好坏排序,并赋值1,2 ……,继而得到每个算法在所有数据集上的平均序值。
在这里插入图片描述
在这里插入图片描述
Nemenyi后续检验:
C D = q k ( k + 1 ) ) 6 N CD = q\sqrt{\frac{k(k+1))}{6N}} CD=q6Nk(k+1))
q q q是Turkey分布的临界值,查表可得相应的临界值,如果算法的平均序值之差小于邻接阈值,可以视为没有显著差异,否则视为有显著性差异,平均序值较小的算法较优。
也可以使用Friedman检验图显示各个算法的性能。

参考资料:
中国地质大学课件
华东师范大学课件

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值