(《机器学习》完整版系列)第2章 模型评估与选择 ——2.6 机器学习中的性能好,不是指“快”而是指“准”

*回顾前述,我们讨论了产品(学习器)以及对产品质量(性能)进行评价,那么,这个评价的可靠性如何?这就涉及统计学中的统计检验。
“小概率事件在单次试验中不可能发生”是其理论依据,由此发展出两种检查方法,我总结出口诀:

  • 临界值法:“临尾而拒”,即落入临界的“尾部”就拒绝。
  • p p p值法:“屁小而拒”,即 p p p值(屁)面积小于给定的 α \alpha α而拒绝。*

性能检验

机器学习中的性能可不是指计算机领域的性能,学习器的性能好是指它“准”而不是指它“快”。

检验原理与方法

1.原理

基本原理:小概率事件在单次试验中不可能发生,若该事件发生了,则判断“导出该事件为小概率事件的前提条件(假设)”不成立,即应拒绝假设条件。

根据基本原理细化出检验步骤:

  • 提出要检验的假设(注意:这里的“假设”不是第1章的假设空间中的假设,而是统计学中的假设。这里的“假设”一词为名词,而不是动词,即作为推导的前提条件),称为原假设,记为 H 0 H_0 H0
  • 以此假设为前提条件,根据统计学知识得出某统计量(随机变量)服从某“细尾分布”(尾部对应于小概率事件,如,正态分布),图像表示为【西瓜书图2.7】。
  • 由于统计量服从“细尾分布”(给定阈值 α \alpha α(显著水平)定义“尾部”),该统计量超过阈值而落入“尾部”是“小概率事件”,【西瓜书图2.7】的阴影部分。
  • 根据试验数据(即测试数据),计算该统计量的实际值。
  • 当统计量的实际值落入“细尾”部分,说明“小概率事件”发生了。
  • 若“小概率事件”已发生,则拒绝原假设,否则接受原假设。

上述为原理性的步骤,在常见场景的实际应用中有两点变化:一是由于统计量的分析属统计学的内容,我们这里用现成的熟知的具有“细尾分布”的统计量即可;二是由于显著水平 α \alpha α是“尾部”面积,而统计量的值是 x x x上的一点,故判断“小概率事件”是否发生有两种方案:(1)将显著水平 α \alpha α(面积)对应到 x x x轴上的“尾部”起点(临界点),以此临界点为比较基准,即临界值法;(2)直接以阈值 α \alpha α(面积)为比较基准,即 p p p值法(该面积即概率,而概率密度又常以字母 p p p表示,故有此名)。

2.临界值表

设定“尾部面积”为 α \alpha α(“小概率”的阈值),找出“尾部”,即求出截断点 x α / 2 x_{\alpha/2} xα/2(称为临界值),而面积为积分,如【西瓜书图2.7】所示。
2 ∫ x α 2 ∞ p ( x )   d x = α (1) 2\int_{x_{\frac{\alpha}{2}}}^{\infty} p(x) \,\mathrm{d}x =\alpha \tag{1} 2x2αp(x)dx=α(1)
其中,“2及 α / 2 {\alpha/2} α/2”表示双侧且对称(若单侧则去掉这两个2)。 有了 x α / 2 x_{\alpha/2} xα/2后,“尾部”即为 [ x α / 2 , + ∞ ) [x_{\alpha/2},+\infty) [xα/2,+) ( − ∞ , − x α / 2 ] (-\infty,-x_{\alpha/2}] (,xα/2],单侧时为 [ x α , + ∞ ) [x_\alpha,+\infty) [xα,+),这里仅讨论双侧情况。

通常将 α \alpha α称为显著水平,它是人为指定的衡量“小概率”的标准(如,0.05),截断点 x α / 2 x_{\alpha/2} xα/2称为 α \alpha α下的临界值(过了该界即为“小概率”事件,【西瓜书图2.7】的阴影部分)。 显然, α \alpha α越小,阴影部分越后移,对应的临界值 x α / 2 x_{\alpha/2} xα/2越大。 而对应的 1 − α 1-\alpha 1α称为置信度,反映可信程度。

x α / 2 x_{\alpha/2} xα/2 α \alpha α的对应关系由式(1)确定,但对常用的 α \alpha α用表格化的方法给出对应的 x α / 2 x_{\alpha/2} xα/2,如【西瓜书表2.3】所示例。

3.检验方法

在给定显著水平 α \alpha α(如,0.005)或置信度 1 − α 1-\alpha 1α(如,99.5%)的条件下进行检验。

一、临界值法

步骤如下:

(1)提出原假设 H 0 H_0 H0(对应的相反的假设称为备选假设 H 1 H_1 H1,原假设与备选假设是互斥的)。 在此假设条件下,由统计学知识得出某统计量 x x x服从某“细尾”分布(如, t t t分布)。

(2)给定显著水平 α \alpha α,根据统计量 x x x服从的分布查对应的表,找到临界值 x α / 2 x_{\alpha/2} xα/2

(3)对试验数据(学习器的测试数据)计算该统计量,得到值 x ^ \hat{x} x^

(4)比较 x ^ \hat{x} x^ x α / 2 x_{\alpha/2} xα/2(即判断 x ^ \hat{x} x^是否落入“小概率”事件的区域),若 x ^ ⩾ x α / 2 \hat{x}\geqslant x_{\alpha/2} x^xα/2,则拒绝原假设 H 0 H_0 H0,接受备选假设 H 1 H_1 H1,否则接受原假设 H 0 H_0 H0

二、 p p p值法

步骤如下:

(1)提出原假设(同前述临界值法)

(2)对试验数据(学习器的测试数据)计算该统计量,得到值 x ^ \hat{x} x^

(3)若以 x ^ \hat{x} x^为截断点,反查表,则得到对应的概率值,记为 p p p值,它即是以 x ^ \hat{x} x^为截断点的“尾部”面积。

(4)比较 p p p值与给定的 α \alpha α(“小概率事件”标准)。

p ⩽ α p\leqslant\alpha pα,则说明由 p p p值决定的“尾部”在 α \alpha α定义的“尾部”之中,即该事件确为“小概率事件”,但它确发生了,故应拒绝原假设 H 0 H_0 H0,接受备选假设 H 1 H_1 H1;否则接受原假设 H 0 H_0 H0

显然,两种检验方法实质上是一样的,为便于记忆,我们用口诀:

  • 临界值法:“临尾而拒”,即落入临界的“尾部”就拒绝。
  • p p p值法:“屁小而拒”,即 p p p值(屁)面积小于给定的 α \alpha α而拒绝。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:2.5 代价的曲线美
下一篇:2.7 具体的性能检验方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值