*回顾前述,我们讨论了产品(学习器)以及对产品质量(性能)进行评价,那么,这个评价的可靠性如何?这就涉及统计学中的统计检验。
“小概率事件在单次试验中不可能发生”是其理论依据,由此发展出两种检查方法,我总结出口诀:
- 临界值法:“临尾而拒”,即落入临界的“尾部”就拒绝。
- p p p值法:“屁小而拒”,即 p p p值(屁)面积小于给定的 α \alpha α而拒绝。*
性能检验
机器学习中的性能可不是指计算机领域的性能,学习器的性能好是指它“准”而不是指它“快”。
检验原理与方法
1.原理
基本原理:小概率事件在单次试验中不可能发生,若该事件发生了,则判断“导出该事件为小概率事件的前提条件(假设)”不成立,即应拒绝假设条件。
根据基本原理细化出检验步骤:
- 提出要检验的假设(注意:这里的“假设”不是第1章的假设空间中的假设,而是统计学中的假设。这里的“假设”一词为名词,而不是动词,即作为推导的前提条件),称为原假设,记为 H 0 H_0 H0。
- 以此假设为前提条件,根据统计学知识得出某统计量(随机变量)服从某“细尾分布”(尾部对应于小概率事件,如,正态分布),图像表示为【西瓜书图2.7】。
- 由于统计量服从“细尾分布”(给定阈值 α \alpha α(显著水平)定义“尾部”),该统计量超过阈值而落入“尾部”是“小概率事件”,【西瓜书图2.7】的阴影部分。
- 根据试验数据(即测试数据),计算该统计量的实际值。
- 当统计量的实际值落入“细尾”部分,说明“小概率事件”发生了。
- 若“小概率事件”已发生,则拒绝原假设,否则接受原假设。
上述为原理性的步骤,在常见场景的实际应用中有两点变化:一是由于统计量的分析属统计学的内容,我们这里用现成的熟知的具有“细尾分布”的统计量即可;二是由于显著水平 α \alpha α是“尾部”面积,而统计量的值是 x x x上的一点,故判断“小概率事件”是否发生有两种方案:(1)将显著水平 α \alpha α(面积)对应到 x x x轴上的“尾部”起点(临界点),以此临界点为比较基准,即临界值法;(2)直接以阈值 α \alpha α(面积)为比较基准,即 p p p值法(该面积即概率,而概率密度又常以字母 p p p表示,故有此名)。
2.临界值表
设定“尾部面积”为
α
\alpha
α(“小概率”的阈值),找出“尾部”,即求出截断点
x
α
/
2
x_{\alpha/2}
xα/2(称为临界值),而面积为积分,如【西瓜书图2.7】所示。
2
∫
x
α
2
∞
p
(
x
)
d
x
=
α
(1)
2\int_{x_{\frac{\alpha}{2}}}^{\infty} p(x) \,\mathrm{d}x =\alpha \tag{1}
2∫x2α∞p(x)dx=α(1)
其中,“2及
α
/
2
{\alpha/2}
α/2”表示双侧且对称(若单侧则去掉这两个2)。 有了
x
α
/
2
x_{\alpha/2}
xα/2后,“尾部”即为
[
x
α
/
2
,
+
∞
)
[x_{\alpha/2},+\infty)
[xα/2,+∞)和
(
−
∞
,
−
x
α
/
2
]
(-\infty,-x_{\alpha/2}]
(−∞,−xα/2],单侧时为
[
x
α
,
+
∞
)
[x_\alpha,+\infty)
[xα,+∞),这里仅讨论双侧情况。
通常将 α \alpha α称为显著水平,它是人为指定的衡量“小概率”的标准(如,0.05),截断点 x α / 2 x_{\alpha/2} xα/2称为 α \alpha α下的临界值(过了该界即为“小概率”事件,【西瓜书图2.7】的阴影部分)。 显然, α \alpha α越小,阴影部分越后移,对应的临界值 x α / 2 x_{\alpha/2} xα/2越大。 而对应的 1 − α 1-\alpha 1−α称为置信度,反映可信程度。
x α / 2 x_{\alpha/2} xα/2与 α \alpha α的对应关系由式(1)确定,但对常用的 α \alpha α用表格化的方法给出对应的 x α / 2 x_{\alpha/2} xα/2,如【西瓜书表2.3】所示例。
3.检验方法
在给定显著水平 α \alpha α(如,0.005)或置信度 1 − α 1-\alpha 1−α(如,99.5%)的条件下进行检验。
一、临界值法
步骤如下:
(1)提出原假设 H 0 H_0 H0(对应的相反的假设称为备选假设 H 1 H_1 H1,原假设与备选假设是互斥的)。 在此假设条件下,由统计学知识得出某统计量 x x x服从某“细尾”分布(如, t t t分布)。
(2)给定显著水平 α \alpha α,根据统计量 x x x服从的分布查对应的表,找到临界值 x α / 2 x_{\alpha/2} xα/2。
(3)对试验数据(学习器的测试数据)计算该统计量,得到值 x ^ \hat{x} x^。
(4)比较 x ^ \hat{x} x^与 x α / 2 x_{\alpha/2} xα/2(即判断 x ^ \hat{x} x^是否落入“小概率”事件的区域),若 x ^ ⩾ x α / 2 \hat{x}\geqslant x_{\alpha/2} x^⩾xα/2,则拒绝原假设 H 0 H_0 H0,接受备选假设 H 1 H_1 H1,否则接受原假设 H 0 H_0 H0。
二、 p p p值法
步骤如下:
(1)提出原假设(同前述临界值法)
(2)对试验数据(学习器的测试数据)计算该统计量,得到值 x ^ \hat{x} x^。
(3)若以 x ^ \hat{x} x^为截断点,反查表,则得到对应的概率值,记为 p p p值,它即是以 x ^ \hat{x} x^为截断点的“尾部”面积。
(4)比较 p p p值与给定的 α \alpha α(“小概率事件”标准)。
若 p ⩽ α p\leqslant\alpha p⩽α,则说明由 p p p值决定的“尾部”在 α \alpha α定义的“尾部”之中,即该事件确为“小概率事件”,但它确发生了,故应拒绝原假设 H 0 H_0 H0,接受备选假设 H 1 H_1 H1;否则接受原假设 H 0 H_0 H0。
显然,两种检验方法实质上是一样的,为便于记忆,我们用口诀:
- 临界值法:“临尾而拒”,即落入临界的“尾部”就拒绝。
- p p p值法:“屁小而拒”,即 p p p值(屁)面积小于给定的 α \alpha α而拒绝。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:2.5 代价的曲线美
下一篇:2.7 具体的性能检验方法