（《机器学习》完整版系列）第2章模型评估与选择 ——2.6 机器学习中的性能好，不是指“快”而是指“准”-CSDN博客

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129097097

*回顾前述，我们讨论了产品（学习器）以及对产品质量（性能）进行评价，那么，这个评价的可靠性如何？这就涉及统计学中的统计检验。
“小概率事件在单次试验中不可能发生”是其理论依据，由此发展出两种检查方法，我总结出口诀：

临界值法：“临尾而拒”，即落入临界的“尾部”就拒绝。
$p$ 值法:“屁小而拒”，即 $p$ 值（屁）面积小于给定的 $\alpha$ 而拒绝。*

性能检验

机器学习中的性能可不是指计算机领域的性能，学习器的性能好是指它“准”而不是指它“快”。

检验原理与方法

1.原理

基本原理：小概率事件在单次试验中不可能发生，若该事件发生了，则判断“导出该事件为小概率事件的前提条件（假设）”不成立，即应拒绝假设条件。

根据基本原理细化出检验步骤：

提出要检验的假设（注意：这里的“假设”不是第1章的假设空间中的假设，而是统计学中的假设。这里的“假设”一词为名词，而不是动词，即作为推导的前提条件），称为原假设，记为 $H_0$ 。
以此假设为前提条件，根据统计学知识得出某统计量（随机变量）服从某“细尾分布”（尾部对应于小概率事件，如，正态分布），图像表示为【西瓜书图2.7】。
由于统计量服从“细尾分布”（给定阈值 $\alpha$ （显著水平）定义“尾部”），该统计量超过阈值而落入“尾部”是“小概率事件”，【西瓜书图2.7】的阴影部分。
根据试验数据（即测试数据），计算该统计量的实际值。
当统计量的实际值落入“细尾”部分，说明“小概率事件”发生了。
若“小概率事件”已发生，则拒绝原假设，否则接受原假设。

上述为原理性的步骤，在常见场景的实际应用中有两点变化：一是由于统计量的分析属统计学的内容，我们这里用现成的熟知的具有“细尾分布”的统计量即可；二是由于显著水平 $\alpha$ 是“尾部”面积，而统计量的值是 $x$ 上的一点，故判断“小概率事件”是否发生有两种方案：（1）将显著水平 $\alpha$ （面积）对应到 $x$ 轴上的“尾部”起点（临界点），以此临界点为比较基准，即临界值法；（2）直接以阈值 $\alpha$ （面积）为比较基准，即 $p$ 值法（该面积即概率，而概率密度又常以字母 $p$ 表示，故有此名）。

2.临界值表

设定“尾部面积”为 $\alpha$ （“小概率”的阈值），找出“尾部”，即求出截断点 $x_{\alpha/2}$ （称为临界值），而面积为积分，如【西瓜书图2.7】所示。
$2\int_{x_{\frac{\alpha}{2}}}^{\infty} p(x) \,\mathrm{d}x =\alpha \tag{1}$
其中，“2及 ${\alpha/2}$ ”表示双侧且对称（若单侧则去掉这两个2）。有了 $x_{\alpha/2}$ 后，“尾部”即为 $[x_{\alpha/2},+\infty)$ 和 $(-\infty,-x_{\alpha/2}]$ ，单侧时为 $[x_\alpha,+\infty)$ ，这里仅讨论双侧情况。

通常将 $\alpha$ 称为显著水平，它是人为指定的衡量“小概率”的标准（如，0.05），截断点 $x_{\alpha/2}$ 称为 $\alpha$ 下的临界值（过了该界即为“小概率”事件，【西瓜书图2.7】的阴影部分）。显然， $\alpha$ 越小，阴影部分越后移，对应的临界值 $x_{\alpha/2}$ 越大。而对应的 $1-\alpha$ 称为置信度，反映可信程度。