第二类错误
第二类错误,也称取伪错误,或者β错误,是统计学中的一个概念。与β错误一起常常出场的就是α错误(弃真错误/第一类错误)。α错误指:“原假设是正确的,却拒绝了原假设” ,β错误与之相反:“原假设是错误的,却没有拒绝原假设。”
说白了,α错误就是:我认为是这件事是错的,但实际上这件事是对的(所以我犯了α错误);β错误就是:我认为这件事是对的,但实际上这件事是错的(所以我犯了β错误)。
图解两种错误
α错误
理解α错误通常采用一个正态分布图配上假设检验案例。现在想通过统计验证μ是不是μ_0,只要统计出来的μ落在了接受域里,那么就认为μ=μ_0不能被拒绝。
真实存在的μ不应该是一个固定值吗?为什么落在接受域里就不拒绝了呢?
这里先讨论μ与分布的关系。我个人的理解是,如果μ=μ_0,那么统计出来所得的μ值分布就是现在的分布。即分布代表了μ值。如果实际上,μ不是这个正态分布的均值,那么实际的μ’也对应一个它自己的分布(而且,这个分布仅仅是向前或者向后偏移而已,假设与实际的西格玛相同,因为假设只考虑μ)。
接着再讨论α的特殊情况,所以如果设α=0.99,可以想象接受域几乎为“一条缝”。只有当统计出的μ落在了这“一条缝”里,才认为μ=μ_0成立(不拒绝原假设)。而实际上,即便实际的μ=μ_0,统计出来的μ也很有可能落在这条“缝”外面,所以,α=0.99时,犯弃真错误的概率很大。所以有了我们常见的套话:“有1%的把握接受原假设”。(1%来自1-α=1-0.99=0.01)
反过来想,如果α小了,那么把握岂不是变大了?
β错误
我个人观点,假设是否成立,看的就是实际分布与假设分布是否相同。
这样才能更好地理解两种错误。
β分布用质量管理中的控制图来理解。
控制图是质量管理传统工具之一。控制图可以检验很多类型的故障,这里只考虑β-risk。通常,对于单个数据点而言,当其落在(LCL,UCL)内,认为系统运行正常。即,如果数据点落在范围外,才认为系统出错(这里认为,系统出错的表现就是实际分布与假设的分布不同。如图,系统出现故障,实际分布偏移了Δ)。
还是对图例进行讨论,如果点落在阴影中,我们认为系统正常。而实际上,分布发生了偏移,系统是存在故障的。所以此时我们犯了取伪错误。
实际的分布服从上面的那条正态曲线,这里证明 β = Φ ( K − t ( n ) ) − Φ ( K − t ( n ) ) \beta=\Phi(K-t\sqrt(n))-\Phi(K-t\sqrt(n)) β=Φ(K−t(n))−Φ(K−t(