*有了前一节的性能检验的理论,我们就可以讨论一些具体的性能检验方法,包括:
- 二项检验
- t t t检验
- 似然比检验*
具体的性能检验方法
二项检验*
本小节更正了【西瓜书】相关内容,请仔细看。
以前述的两种检验方法(临界值法、p值法)为检验的“框架”,应用这个“框架”我们讨论二项检验
H
0
:
ϵ
=
ϵ
0
H_0:\epsilon = \epsilon _0
H0:ϵ=ϵ0。
以错误率
ϵ
\epsilon
ϵ作为性能度量。 设学习器的错误率(学习器的泛化性能仅与学习器相关,即它是关于样本变量的常数 )为
ϵ
\epsilon
ϵ,则正确率为
1
−
ϵ
1-\epsilon
1−ϵ,
由伯努利试验知,学习器对
m
m
m个样本的预测中有
i
i
i个出错的概率为
P
(
i
;
ϵ
)
=
(
m
i
)
ϵ
i
(
1
−
ϵ
)
m
−
i
i
=
0
,
1
,
2
,
⋯
,
m
\begin{align} P(i;{\epsilon})={m \choose i}\epsilon ^{ i}(1-\epsilon )^{m-i}\qquad i=0,1,2,\cdots,m \tag{2} \end{align}
P(i;ϵ)=(im)ϵi(1−ϵ)m−ii=0,1,2,⋯,m(2)
设学习器在测试集中的表现为:
m
m
m个测试样本中有
m
′
m'
m′个被错误地分类,即
ϵ
^
=
m
′
m
\begin{align} \hat{\epsilon} =\frac{m'}{m} \tag{3} \end{align}
ϵ^=mm′(3)
由式(2)、式(3)知,在
ϵ
{\epsilon}
ϵ的条件下发生
ϵ
^
\hat{\epsilon}
ϵ^的概率为
ϵ
{\epsilon}
ϵ的函数
f
(
ϵ
)
=
P
(
ϵ
^
;
ϵ
)
=
(
m
ϵ
^
m
)
ϵ
ϵ
^
m
(
1
−
ϵ
)
m
−
ϵ
^
m
\begin{align} f({\epsilon})=P(\hat{\epsilon};{\epsilon})={m \choose \hat{\epsilon}m}\epsilon ^{ \hat{\epsilon}m}(1-\epsilon )^{m-\hat{\epsilon}m} \tag{4} \end{align}
f(ϵ)=P(ϵ^;ϵ)=(ϵ^mm)ϵϵ^m(1−ϵ)m−ϵ^m(4)
对其求导,有
∂
f
(
ϵ
)
∂
ϵ
=
(
m
ϵ
^
m
)
ϵ
ϵ
^
m
−
1
(
1
−
ϵ
)
m
−
ϵ
^
m
−
1
m
(
ϵ
^
−
ϵ
)
\begin{align} \frac{ \partial f({\epsilon})}{\partial{\epsilon} }= {m \choose \hat{\epsilon}m}\epsilon^{ \hat{\epsilon}m-1}(1-\epsilon )^{m-\hat{\epsilon}m-1}m(\hat{\epsilon}-\epsilon) \tag{5} \end{align}
∂ϵ∂f(ϵ)=(ϵ^mm)ϵϵ^m−1(1−ϵ)m−ϵ^m−1m(ϵ^−ϵ)(5)
由式(5)中的
(
ϵ
^
−
ϵ
)
(\hat{\epsilon}-\epsilon)
(ϵ^−ϵ)知,函数
f
(
ϵ
)
f({\epsilon})
f(ϵ)从
f
(
0
)
=
0
f(0)=0
f(0)=0单调递增到最大值
f
(
ϵ
^
)
f(\hat{\epsilon})
f(ϵ^)然后单调下降到
f
(
1
)
=
0
f({1})=0
f(1)=0,这种趋势像“正态分布”。
给定常数
(
ϵ
0
<
1
2
)
({\epsilon_0}<\frac{1}{2})
(ϵ0<21),由式(2)有
P
(
i
;
ϵ
=
ϵ
0
)
=
(
m
i
)
ϵ
0
i
(
1
−
ϵ
0
)
m
−
i
i
=
0
,
1
,
2
,
⋯
,
m
\begin{align} P(i;{\epsilon}={\epsilon}_0)={m \choose i}\epsilon_0 ^{ i}(1-\epsilon_0 )^{m-i}\qquad i=0,1,2,\cdots,m \tag{6} \end{align}
P(i;ϵ=ϵ0)=(im)ϵ0i(1−ϵ0)m−ii=0,1,2,⋯,m(6)
P
(
i
;
ϵ
=
ϵ
0
)
P(i;{\epsilon}={\epsilon}_0)
P(i;ϵ=ϵ0)是关于
i
i
i的函数,但不是连续的。 不能用上述求导方法来判断单调性,观察其特点,我们作比率
P
(
i
+
1
;
ϵ
=
ϵ
0
)
P
(
i
;
ϵ
=
ϵ
0
)
=
m
−
i
i
+
1
×
ϵ
0
1
−
ϵ
0
=
1
−
ϵ
′
ϵ
′
+
1
/
m
×
ϵ
0
1
−
ϵ
0
,
(
ϵ
′
=
i
m
)
\begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)} & =\frac{m-i}{i+1}\times\frac{{\epsilon}_0}{1-{\epsilon}_0}\notag \\ & =\frac{1-{\epsilon}'}{{\epsilon}'+1/m}\times\frac{{\epsilon}_0}{1-{\epsilon}_0},\qquad ({\epsilon}'=\frac{i}{m}) \tag{7} \end{align}
P(i;ϵ=ϵ0)P(i+1;ϵ=ϵ0)=i+1m−i×1−ϵ0ϵ0=ϵ′+1/m1−ϵ′×1−ϵ0ϵ0,(ϵ′=mi)(7)
式(7)分为两种情况:
当
ϵ
′
<
ϵ
0
−
1
m
{\epsilon}'<{\epsilon}_0-\frac{1}{m}
ϵ′<ϵ0−m1时:
P
(
i
+
1
;
ϵ
=
ϵ
0
)
P
(
i
;
ϵ
=
ϵ
0
)
>
1
−
ϵ
0
+
1
/
m
ϵ
0
×
ϵ
0
1
−
ϵ
0
>
1
−
ϵ
0
ϵ
0
×
ϵ
0
1
−
ϵ
0
=
1
\begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)} & >\frac{1-{\epsilon}_0+1/m}{{\epsilon}_0}\times\frac{{\epsilon}_0}{1-{\epsilon}_0}\notag \\ & >\frac{1-{\epsilon}_0}{{\epsilon}_0}\times\frac{{\epsilon}_0}{1-{\epsilon}_0}=1 \tag{8} \end{align}
P(i;ϵ=ϵ0)P(i+1;ϵ=ϵ0)>ϵ01−ϵ0+1/m×1−ϵ0ϵ0>ϵ01−ϵ0×1−ϵ0ϵ0=1(8)
当
ϵ
′
>
ϵ
0
{\epsilon}'>{\epsilon}_0
ϵ′>ϵ0时:
P
(
i
+
1
;
ϵ
=
ϵ
0
)
P
(
i
;
ϵ
=
ϵ
0
)
<
1
−
ϵ
′
ϵ
′
+
1
/
m
×
ϵ
′
1
−
ϵ
′
<
1
−
ϵ
′
ϵ
′
×
ϵ
′
1
−
ϵ
′
=
1
\begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)} & <\frac{1-{\epsilon}'}{{\epsilon}'+1/m}\times\frac{{\epsilon}'}{1-{\epsilon}'}\notag \\ & <\frac{1-{\epsilon}'}{{\epsilon}'}\times\frac{{\epsilon}'}{1-{\epsilon}'}=1 \tag{9} \end{align}
P(i;ϵ=ϵ0)P(i+1;ϵ=ϵ0)<ϵ′+1/m1−ϵ′×1−ϵ′ϵ′<ϵ′1−ϵ′×1−ϵ′ϵ′=1(9)
由
ϵ
′
=
i
m
{\epsilon}'=\frac{i}{m}
ϵ′=mi,将式(8)、式(9)转化为由
i
i
i表达,即
P
(
i
+
1
;
ϵ
=
ϵ
0
)
P
(
i
;
ϵ
=
ϵ
0
)
{
>
1
,
(
当
i
<
[
m
ϵ
0
−
1
]
)
<
1
,
(
当
i
>
[
m
ϵ
0
]
)
\begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)}\ \begin{cases} >1,\qquad (\text{当}\quad i<[m{\epsilon}_0-1]) \\ <1,\qquad (\text{当}\quad i>[m{\epsilon}_0]) \\ \end{cases} \tag{10} \end{align}
P(i;ϵ=ϵ0)P(i+1;ϵ=ϵ0) {>1,(当i<[mϵ0−1])<1,(当i>[mϵ0])(10)
由式(10)知,
P
(
i
;
ϵ
=
ϵ
0
)
P(i;{\epsilon}={\epsilon}_0)
P(i;ϵ=ϵ0)也具有像“正态分布”的两侧增减性质:
先升至
P
(
[
m
ϵ
0
]
;
ϵ
=
ϵ
0
)
P([m{\epsilon}_0];{\epsilon}={\epsilon}_0)
P([mϵ0];ϵ=ϵ0)再降,这即是【西瓜书图2.6】所示。
式(10)揭示
P
(
i
;
ϵ
=
ϵ
0
)
P(i;{\epsilon}={\epsilon}_0)
P(i;ϵ=ϵ0)具有“尾部”性质,给定显著水平
α
\alpha
α(小概率的阈值),可取
k
∗
=
min
k
∑
i
=
k
m
P
(
i
;
ϵ
=
ϵ
0
)
<
α
\begin{align} k^*=\mathop{\min}\limits_k\sum_{i=k}^mP(i;{\epsilon}={\epsilon}_0)<\alpha \tag{11} \end{align}
k∗=kmini=k∑mP(i;ϵ=ϵ0)<α(11)
取
ϵ
‾
\overline{\epsilon}
ϵ满足
m
ϵ
‾
+
1
=
k
∗
m\overline{\epsilon}+1=k^*
mϵ+1=k∗,式(11)转化为
ϵ
‾
=
min
ϵ
′
∑
i
=
ϵ
′
m
+
1
m
(
m
i
)
ϵ
0
i
(
1
−
ϵ
0
)
m
−
i
<
α
\begin{align} \overline{\epsilon}=\mathop{\min}\limits_{{\epsilon}'}\sum_{i={\epsilon}'m+1}^m{m \choose i}\epsilon_0 ^{ i}(1-\epsilon_0 )^{m-i}<\alpha \tag{12} \end{align}
ϵ=ϵ′mini=ϵ′m+1∑m(im)ϵ0i(1−ϵ0)m−i<α(12)
式(12)即为【西瓜书式(1.27)】。
现在,我们考察在条件
ϵ
=
ϵ
0
{\epsilon}={\epsilon}_0
ϵ=ϵ0下,事件
ϵ
^
>
ϵ
‾
\hat{\epsilon}>\overline{\epsilon}
ϵ^>ϵ发生的概率
P
(
ϵ
^
>
ϵ
‾
;
ϵ
=
ϵ
0
)
=
P
(
m
′
m
>
ϵ
‾
;
ϵ
=
ϵ
0
)
=
P
(
m
′
>
m
ϵ
‾
;
ϵ
=
ϵ
0
)
=
P
(
(
m
ϵ
‾
+
1
)
∪
(
m
ϵ
‾
+
2
)
∪
⋯
∪
(
m
)
;
ϵ
=
ϵ
0
)
=
∑
i
=
k
∗
m
P
(
i
;
ϵ
=
ϵ
0
)
<
α
\begin{align} P(\hat{\epsilon}>\overline{\epsilon};{\epsilon}={\epsilon}_0) & =P(\frac{m'}{m}>\overline{\epsilon};{\epsilon}={\epsilon}_0)\notag \\ & =P(m'>m\overline{\epsilon };{\epsilon}={\epsilon}_0)\notag \\ & =P((m\overline{\epsilon }+1)\cup (m\overline{\epsilon }+2)\cup \cdots \cup (m);{\epsilon}={\epsilon}_0)\notag \\ & =\sum_{i=k^*}^mP(i;{\epsilon}={\epsilon}_0)\notag \\ & <\alpha \tag{13} \end{align}
P(ϵ^>ϵ;ϵ=ϵ0)=P(mm′>ϵ;ϵ=ϵ0)=P(m′>mϵ;ϵ=ϵ0)=P((mϵ+1)∪(mϵ+2)∪⋯∪(m);ϵ=ϵ0)=i=k∗∑mP(i;ϵ=ϵ0)<α(13)
由此即可得到二项检验的临界值法,其步骤:
(1)提出原假设 H 0 : ϵ = ϵ 0 H_0:\epsilon = \epsilon _0 H0:ϵ=ϵ0,( ϵ 0 < 1 2 \epsilon _0<\frac{1}{2} ϵ0<21为常数)。
(2)确定显示水平 α \alpha α(小概率的阈值),将 α , ϵ 0 \alpha,\epsilon _0 α,ϵ0代入式(12)计算临界值 ϵ ‾ \overline{\epsilon} ϵ。
(3)试验:学习器在测试集中进行试验(测试),统计得到 m ′ m' m′,计算 ϵ ^ = m ′ m \hat{\epsilon}=\frac{m'}{m} ϵ^=mm′。
(4)作出判断:若 ϵ ^ > ϵ ‾ \hat{\epsilon}>\overline{\epsilon} ϵ^>ϵ,则由式(13)说明小概率事件发生了,应拒绝原假设 H 0 H_0 H0,接受备选假设 H 1 H_1 H1;否则,接受原假设 H 0 H_0 H0。
t t t检验
由统计学知识知【西瓜书式(2.30)】定义的统计量
τ
t
\tau _t
τt服从
t
t
t分布,如【西瓜书图(2.7)】所示,类似式(1)得到双测
“尾部”为
[
t
α
/
2
,
+
∞
)
[t_{\alpha/2},+\infty)
[tα/2,+∞)和
(
−
∞
,
−
t
α
/
2
]
(-\infty,-t_{\alpha/2}]
(−∞,−tα/2],单侧时为
[
t
α
,
+
∞
)
[t_\alpha,+\infty)
[tα,+∞)。 通常编制双侧情况下
α
\alpha
α与
t
α
/
2
t_{\alpha/2}
tα/2的对应关系表,那么,对于单侧,则令
α
1
=
α
/
2
\alpha_1=\alpha/2
α1=α/2转化为双侧。
检验步骤:
(1)提出原假设(这里 H 0 H_0 H0的意思是:可用测试的平均性能作为泛化性能。 实际上我们就是这样做的,这里就是要检验这样做的合理性), H 0 : μ = ϵ 0 H_0:\mu =\epsilon _0 H0:μ=ϵ0,( ϵ 0 \epsilon _0 ϵ0为常数),其中, μ = ϵ \mu =\epsilon μ=ϵ为平均测试错误率, ϵ 0 \epsilon _0 ϵ0为泛化错误率。
(2)确定显示水平下的临界值,即给定显示水平 α \alpha α,由 α \alpha α及 k k k查【西瓜书表2.3】得到临界值 t α / 2 , k − 1 t_{\alpha/2,k-1} tα/2,k−1。
(3)根据学习器的测试数据,计算统计量 τ t \tau _t τt的实际值 τ t ^ \hat{\tau _t} τt^。
(4)比较 τ t ^ \hat{\tau _t} τt^与临界值 t α / 2 , k − 1 t_{\alpha/2,k-1} tα/2,k−1,按“临尾而拒”的规则来判断是否接受原假设。
从上述我们可以看出,先提出需要检验的假设(即原假设),再根据该假设及统计学知识设计合适的统计量(如,上述的统计量 τ t \tau _t τt),后续步骤则是按部就班的。
似然比检验*
本小节我们利用似然函数及极大似然法MLE相关知识构造出一种检验方法。这小节需要较多的统计学知识,有一定的难度。
1.参数模型
设参数模型:
θ
=
θ
(
η
)
\theta =\theta (\eta )
θ=θ(η),对于样本集
{
x
i
}
i
=
1
n
\{x_i\}_{i=1}^n
{xi}i=1n,其似然函数是关于
θ
\theta
θ的函数
L
(
θ
)
=
∏
i
=
1
n
p
(
x
i
;
θ
)
\begin{align} L(\theta)=\prod _{i=1}^np(x_i;\theta) \tag{14} \end{align}
L(θ)=i=1∏np(xi;θ)(14)
θ
\theta
θ的极大似然估计MLE为
θ
^
=
arg
max
θ
L
(
θ
)
\begin{align} \hat{\theta} =\arg\mathop{\max}\limits_{\theta}L(\theta) \tag{15} \end{align}
θ^=argθmaxL(θ)(15)
作似然比
R
(
θ
)
=
L
(
θ
)
L
(
θ
^
)
\begin{align} R({\theta} )=\frac{L ({\theta} )}{ L (\hat{\theta} )} \tag{16} \end{align}
R(θ)=L(θ^)L(θ)(16)
现在讨论对假设
H
0
:
θ
=
θ
0
H_0:\theta =\theta_0
H0:θ=θ0的检验。
(1)在参数模型中,MLE可以“代入”:
若参数
η
\eta
η的MLE为
η
^
\hat{\eta}
η^,则该参数的函数
θ
=
θ
(
η
)
\theta =\theta (\eta )
θ=θ(η)的MLE为
θ
^
=
θ
(
η
^
)
\hat{\theta} =\theta (\hat{\eta} )
θ^=θ(η^)。
(2)Milks定理表明:在适当条件(略)下,当样本数趋于无穷多时,有
−
2
log
(
R
(
θ
)
)
依分布收敛于
χ
2
\begin{align} -2{\log}(R({\theta} ))\text{依分布收敛于}\chi ^2 \tag{17} \end{align}
−2log(R(θ))依分布收敛于χ2(17)
其中,
χ
2
\chi ^2
χ2的自由度常取参数
θ
{\theta}
θ的维数
c
c
c。
基于结论式(17),对
χ
2
\chi ^2
χ2图象进行依
α
\alpha
α截尾处理(保留置信范围
(
1
−
α
)
(1-\alpha )
(1−α)),可解不等式得到参数
θ
(
η
)
\theta (\eta)
θ(η)的置信域
{
θ
0
∣
R
(
θ
0
)
⩾
r
α
}
\begin{align} \{\theta_0 |R({\theta_0} )\geqslant r_{\alpha } \} \tag{18} \end{align}
{θ0∣R(θ0)⩾rα}(18)
其中,
r
α
r_{\alpha }
rα与显著水平
α
\alpha
α相关,为简单起见,我们取为常数
c
c
c(参数
θ
{\theta}
θ的维数)。 即:如果
L
(
η
0
)
L (\eta _0)
L(η0)比
L
(
η
^
)
L (\hat{\eta} )
L(η^)“小得多”(即
R
(
θ
0
)
<
c
R({\theta_0} )<c
R(θ0)<c),则拒绝原假设
H
0
:
θ
=
θ
0
H_0:\theta =\theta_0
H0:θ=θ0,反之,则接受原假设。
2.非参数模型
参考上述参数模型中的情形,我们构造出非参数模型中的“假设 H 0 : θ = θ 0 H_0:\theta =\theta_0 H0:θ=θ0”的检验。
设非参数模型(因
F
F
F不是参数,故为非参数模型,又
F
F
F是函数,故我们写为泛函的中括号表达
θ
[
F
]
\theta [F]
θ[F]):
θ
=
θ
[
F
]
\theta =\theta [F]
θ=θ[F],其中,
F
F
F随机变量
X
X
X的累计分布函数(亦称分布函数)
F
(
x
)
=
P
(
X
⩽
x
)
\begin{align} F(x)=P(X\leqslant x) \tag{19} \end{align}
F(x)=P(X⩽x)(19)
取
n
n
n个样本
X
j
,
(
j
=
1
,
2
,
⋯
,
n
)
X_j,(j=1,2,\cdots,n)
Xj,(j=1,2,⋯,n),定义其经验似然函数为
L
n
[
F
]
=
∏
j
=
1
n
P
(
X
j
)
\begin{align} L_n[F] & =\prod _{j=1}^nP(X_j) \tag{20} \end{align}
Ln[F]=j=1∏nP(Xj)(20)
设取出的样本(严格来讲是独立同分布随机变量各进行一次采样)。
X
j
,
(
j
=
1
,
2
,
⋯
,
n
)
X_j,(j=1,2,\cdots,n)
Xj,(j=1,2,⋯,n)中只有
K
K
K个不相同的值
{
z
1
,
z
2
,
⋯
,
z
K
}
\{z_1,z_2,\cdots,z_K\}
{z1,z2,⋯,zK},各值对应的概率分别为
{
P
1
,
P
2
,
⋯
,
P
K
}
\{P_1,P_2,\cdots,P_K\}
{P1,P2,⋯,PK},各值出现的次数分别为
{
n
1
,
n
2
,
⋯
,
n
K
}
\{n_1,n_2,\cdots,n_K\}
{n1,n2,⋯,nK},则对式(20)中进行“合并同类项”处理,有
L
n
[
F
]
=
∏
i
=
1
K
P
i
n
i
\begin{align} L_n[F] & =\prod _{i=1}^KP_i^{n_i} \tag{21} \end{align}
Ln[F]=i=1∏KPini(21)
样本
{
z
1
,
z
2
,
⋯
,
z
K
}
\{ z_1,z_2,\cdots,z_K\}
{z1,z2,⋯,zK}对应的频率为
{
n
1
n
,
n
2
n
,
⋯
,
n
K
n
}
\{ \frac{n_1}{n},\frac{n_2}{n},\cdots,\frac{n_K}{n}\}
{nn1,nn2,⋯,nnK},对式(21)以频率代替概率,记
L
n
(
F
^
)
=
∏
i
=
1
K
(
n
i
n
)
n
i
\begin{align} L_n(\hat{F}) & =\prod _{i=1}^K(\frac{n_i}{n})^{n_i} \tag{22} \end{align}
Ln(F^)=i=1∏K(nni)ni(22)
作经验似然比
R
n
[
F
]
=
L
n
[
F
]
L
n
(
F
^
)
=
∏
i
=
1
K
(
n
P
i
n
i
)
n
i
=
∏
i
=
1
K
(
P
i
P
^
i
)
n
i
\begin{align} R_n[F] & =\frac{L_n[F]}{L_n(\hat{F})}\notag \\ & =\prod _{i=1}^K\left(\frac{nP_i}{n_i}\right)^{n_i} \tag{23} \\ & =\prod _{i=1}^K\left(\frac{P_i}{\hat{P}_i}\right)^{n_i} \tag{23-1} \end{align}
Rn[F]=Ln(F^)Ln[F]=i=1∏K(ninPi)ni=i=1∏K(P^iPi)ni(23)(23-1)
其中,
P
^
i
=
n
i
n
\hat{P}_i=\frac{n_i}{n}
P^i=nni为
z
i
z_i
zi出现的频率。
由于样本值
z
i
z_i
zi对应的概率为
P
i
P_i
Pi,出现次数为
n
i
n_i
ni,将概率
P
i
P_i
Pi分摊到取
z
i
z_i
zi值的样本(
{
X
j
∣
X
j
=
n
i
}
\{X_j|X_j=n_i\}
{Xj∣Xj=ni})中,
X
j
X_j
Xj分摊
w
j
w_j
wj,则有
P
i
=
∑
j
:
X
j
=
z
i
w
j
,
i
=
1
,
2
,
⋯
,
K
n
P
i
=
∑
j
:
X
j
=
z
i
n
w
j
,
i
=
1
,
2
,
⋯
,
K
∑
j
:
X
j
=
z
i
n
P
i
n
i
=
∑
j
:
X
j
=
z
i
n
w
j
,
i
=
1
,
2
,
⋯
,
K
\begin{align} P_i=\sum_{j:X_j=z_i}w_j,\quad i=1,2,\cdots,K\notag \\ nP_i=\sum_{j:X_j=z_i}nw_j,\quad i=1,2,\cdots,K\notag \\ \sum_{j:X_j=z_i}\frac{nP_i}{n_i}=\sum_{j:X_j=z_i}nw_j,\quad i=1,2,\cdots,K \tag{24} \end{align}
Pi=j:Xj=zi∑wj,i=1,2,⋯,KnPi=j:Xj=zi∑nwj,i=1,2,⋯,Kj:Xj=zi∑ninPi=j:Xj=zi∑nwj,i=1,2,⋯,K(24)
其中,左边为对
n
P
i
nP_i
nPi进行等分。
因为:“和”一定的若干个数,当且仅当这些数等分“和”时,“积”最大,因式(24)左侧为已知的常数,故有
max
∏
j
:
X
j
=
z
i
n
w
j
=
∏
j
:
X
j
=
z
i
n
P
i
n
i
=
(
n
P
i
n
i
)
n
i
,
i
=
1
,
2
,
⋯
,
K
\begin{align} \max \prod _{j:X_j=z_i}nw_j & =\prod _{j:X_j=z_i}\frac{nP_i}{n_i}\notag \\ & =\left(\frac{nP_i}{n_i}\right)^{n_i},\quad i=1,2,\cdots,K \tag{25} \end{align}
maxj:Xj=zi∏nwj=j:Xj=zi∏ninPi=(ninPi)ni,i=1,2,⋯,K(25)
将式(25)中的
k
k
k个式子连乘起来,有
max
∏
i
=
1
n
n
w
i
=
∏
i
=
1
K
(
max
∏
j
:
X
j
=
z
i
n
w
j
)
=
∏
i
=
1
K
(
n
P
i
n
i
)
n
i
=
R
n
[
F
]
(由式(23))
\begin{align} \max \prod _{i=1}^n nw_i & =\prod _{i=1}^K\left(\max \prod _{j:X_j=z_i}nw_j\right)\notag \\ & =\prod _{i=1}^K\left(\frac{nP_i}{n_i}\right)^{n_i}\notag \\ & =R_n[F]\quad \text{(由式(23))} \tag{26} \end{align}
maxi=1∏nnwi=i=1∏K
maxj:Xj=zi∏nwj
=i=1∏K(ninPi)ni=Rn[F](由式(23))(26)
类比在参数模型时的情况式(17),这时同样有结论(通常基于式(26)得截面经验似然比的结论,我们不作讨论):在适当条件下,当样本数趋于无穷多时,有
−
2
log
(
R
n
[
F
]
)
依分布收敛于
χ
2
\begin{align} -2{\log} (R_n[F])\text{依分布收敛于}\chi ^2 \tag{27} \end{align}
−2log(Rn[F])依分布收敛于χ2(27)
该结论式(27)即可用于统计检验。
对于二分类问题,我们做个转换:
−
2
log
(
R
n
[
F
]
)
=
2
log
(
R
n
[
F
]
)
−
1
=
2
log
(
∏
i
=
1
2
(
P
i
P
^
i
)
n
i
)
−
1
=
2
log
(
(
P
^
1
P
1
)
n
1
(
P
^
2
P
2
)
n
2
)
=
2
(
n
1
log
P
^
1
P
1
+
n
2
log
P
^
2
P
2
)
\begin{align} -2{\log}(R_n[F]) & =2{\log}(R_n[F])^{-1}\notag \\ & =2{\log}\left(\prod _{i=1}^2\left(\frac{P_i}{\hat{P}_i}\right)^{n_i}\right)^{-1}\notag \\ & =2{\log}\left(\left(\frac{\hat{P}_1}{P_1}\right)^{n_1}\left(\frac{\hat{P}_2}{P_2}\right)^{n_2}\right)\notag \\ & =2\left({n_1}{\log}\frac{\hat{P}_1}{P_1}+{n_2}{\log}\frac{\hat{P}_2}{P_2}\right) \tag{28} \end{align}
−2log(Rn[F])=2log(Rn[F])−1=2log(i=1∏2(P^iPi)ni)−1=2log((P1P^1)n1(P2P^2)n2)=2(n1logP1P^1+n2logP2P^2)(28)
其中,频率为
P
^
1
=
n
1
n
\hat{P}_1=\frac{n_1}{n}
P^1=nn1,
P
^
2
=
n
2
n
\hat{P}_2=\frac{n_2}{n}
P^2=nn2。
式(28)作为二分类问题时的似然比统计量(LRS)反映了分布 ( P ^ 1 , P ^ 2 ) (\hat{P}_1,\hat{P}_2) (P^1,P^2)与分布 ( P 1 , P 2 ) ({P}_1,{P}_2) (P1,P2)的差别,二者越接近LRS越大,当训练中需要判断二者是否接近时,通常设置较大的阈值(如,0.99)作为判断条件。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权