西瓜书2.4节提到了二项检验,看不太懂。参考网上其他人的想法后,记录一下自己的理解。
以下内容也包含着自己对假设检验的理解。
检验原理
对于一个学习器的泛化错误率 ϵ \epsilon ϵ,我们做出一个猜想(假设): ϵ ≤ ϵ 0 \epsilon\le\epsilon_0 ϵ≤ϵ0。
那么如何知道这个猜想对不对呢?假如我们已知 ϵ \epsilon ϵ的值,那么只需将 ϵ \epsilon ϵ与 ϵ 0 \epsilon_0 ϵ0比大小就能得知猜想是否正确。但问题是,一个学习器的泛化错误率并不能事先得到。我们只能得到这个学习器的测试错误率 ϵ ^ \hat\epsilon ϵ^。
虽然 ϵ \epsilon ϵ未知,但我们可以用 ϵ ^ \hat\epsilon ϵ^检验我们的猜想。这是因为 ϵ ^ \hat\epsilon ϵ^在一定程度上反应了 ϵ \epsilon ϵ的大小。西瓜书上给出这两者的联合概率质量函数 P ( ϵ ^ ; ϵ ) = ( m ϵ ^ ∗ m ) ϵ ϵ ^ ∗ m ( 1 − ϵ ) m − ϵ ^ ∗ m P(\hat\epsilon;\epsilon)=\binom{m}{\hat\epsilon*m}\epsilon^{\hat\epsilon*m}(1-\epsilon)^{m-\hat\epsilon*m} P(ϵ^;ϵ)=(ϵ^∗mm)ϵϵ^∗m(1−ϵ)m−ϵ^∗m由此我们可以证明出 ϵ ^ \hat\epsilon ϵ^是 ϵ \epsilon ϵ的无偏估计,证明在这。这就说明,如果 ϵ ≤ ϵ 0 \epsilon\le\epsilon_0 ϵ≤ϵ0,那么 ϵ ^ \hat\epsilon ϵ^在大概率上也小于 ϵ 0 \epsilon_0 ϵ0,而在小概率上远大于 ϵ 0 \epsilon_0 ϵ0。
假设检验的基本原理是小概率原理,即“概率很小的事件在一次试验中可认为几乎不会发生”。因此,如果“ ϵ ^ \hat\epsilon ϵ^远大于 ϵ 0 \epsilon_0 ϵ0”这个小概率事件发生,我们就认为假设不对。但问题是, ϵ ^ \hat\epsilon ϵ^需要大于多少我们才能怀疑我们的假设不对?
形式化的来说,当 P { ϵ ^ ≥ ϵ ˉ ∣ ϵ ≤ ϵ 0 } < α P\{\hat\epsilon \ge \bar\epsilon|\epsilon \le\epsilon_0\}<\alpha P{ϵ^≥ϵˉ∣ϵ≤ϵ0}<α,这个小概率事件( α \alpha α很小,通常为0.1,0.05)发生时,我们拒绝假设" H 0 : ϵ ≤ ϵ 0 H_0:\epsilon \le \epsilon_0 H0:ϵ≤ϵ0"。那么现在只要求出 ϵ ˉ \bar \epsilon ϵˉ,我们就能用 ϵ ^ \hat\epsilon ϵ^与 ϵ ˉ \bar\epsilon ϵˉ比大小,确定猜想是否正确。
ϵ ˉ \bar\epsilon ϵˉ的计算
ϵ ˉ \bar\epsilon ϵˉ的计算过程应该能反应出 ϵ ≤ ϵ 0 \epsilon \le\epsilon_0 ϵ≤ϵ0这一猜想。为了求出这个边界,我们可以求 ϵ = ϵ 0 \epsilon =\epsilon_0 ϵ=ϵ0所对应的 ϵ ˉ \bar\epsilon ϵˉ。因为这样求出的 ϵ ˉ \bar\epsilon ϵˉ, { ϵ ^ ≥ ϵ ˉ } \{\hat\epsilon \ge \bar\epsilon\} {ϵ^≥ϵˉ}对 ϵ = ϵ 0 \epsilon =\epsilon_0 ϵ=ϵ0来说是一个小概率事件,那么对 ϵ ≤ ϵ 0 \epsilon \le\epsilon_0 ϵ≤ϵ0更是一个小概率事件。
这样
ϵ
ˉ
\bar\epsilon
ϵˉ可由以下公式算出
ϵ
ˉ
=
min
ϵ
^
s
.
t
.
∑
i
=
ϵ
^
∗
m
+
1
m
(
m
i
)
ϵ
0
i
(
1
−
ϵ
0
)
m
−
i
<
α
\bar\epsilon=\min\hat\epsilon \\s.t.\ \sum_{i=\hat\epsilon*m+1}^{m}\binom{m}{i}\epsilon_0^{i}(1-\epsilon_0)^{m-i} < \alpha
ϵˉ=minϵ^s.t. i=ϵ^∗m+1∑m(im)ϵ0i(1−ϵ0)m−i<α
注意此处的 min \min min在书中为 max \max max,不过在《机器学习》上已经更正。
ϵ ^ \hat\epsilon ϵ^无偏估计证明
∵ P ( ϵ ^ ; ϵ ) = ( m ϵ ^ ∗ m ) ϵ ϵ ^ ∗ m ( 1 − ϵ ) m − ϵ ^ ∗ m ∴ E ( ϵ ^ ) = ∑ i = 0 m ϵ ^ P ( ϵ ^ ; ϵ ) = 1 m ∑ i = 0 m i ( m i ) ϵ i ( 1 − ϵ ) m − i = 1 m ∑ i = 1 m m ϵ ( m − 1 i − 1 ) ϵ i − 1 ( 1 − ϵ ) m − i = ϵ ∑ i = 1 m ( m − 1 i − 1 ) ϵ i − 1 ( 1 − ϵ ) ( m − 1 ) − ( i − 1 ) = ϵ [ ϵ + ( 1 − ϵ ) ] m − 1 = ϵ ∴ ϵ ^ 是 ϵ 的 无 偏 估 计 \begin{aligned} \because P(\hat\epsilon;\epsilon)&=\binom{m}{\hat\epsilon*m}\epsilon^{\hat\epsilon*m}(1-\epsilon)^{m-\hat\epsilon*m} \\ \therefore E(\hat\epsilon) &= \sum_{i=0}^{m}\hat\epsilon P(\hat\epsilon;\epsilon)\\ & = \frac{1}{m} \sum_{i=0}^{m}i \binom{m}{i}\epsilon^{i}(1-\epsilon)^{m-i}\\ &= \frac{1}{m} \sum_{i=1}^{m} m\epsilon\binom{m-1}{i-1}\epsilon^{i-1}(1-\epsilon)^{m-i}\\ &=\epsilon\sum_{i=1}^{m} \binom{m-1}{i-1}\epsilon^{i-1}(1-\epsilon)^{(m-1)-(i-1)}\\ &=\epsilon[\epsilon + (1-\epsilon)]^{m-1}=\epsilon \end{aligned}\\ \therefore \hat\epsilon是\epsilon的无偏估计 ∵P(ϵ^;ϵ)∴E(ϵ^)=(ϵ^∗mm)ϵϵ^∗m(1−ϵ)m−ϵ^∗m=i=0∑mϵ^P(ϵ^;ϵ)=m1i=0∑mi(im)ϵi(1−ϵ)m−i=m1i=1∑mmϵ(i−1m−1)ϵi−1(1−ϵ)m−i=ϵi=1∑m(i−1m−1)ϵi−1(1−ϵ)(m−1)−(i−1)=ϵ[ϵ+(1−ϵ)]m−1=ϵ∴ϵ^是ϵ的无偏估计