在《统计学习方法》第一版P84或第二版P99中提到:
“具体地,求
L
(
P
,
w
)
L(P, w)
L(P,w)对
P
(
y
∣
x
)
P(y|x)
P(y∣x)的偏导数
∂
L
(
P
,
w
)
∂
P
(
y
∣
x
)
)
=
∑
x
,
y
P
~
(
x
)
(
l
o
g
P
(
y
∣
x
)
+
1
)
−
∑
y
w
0
−
∑
x
,
y
(
P
~
(
x
)
∑
i
=
1
n
w
i
f
i
(
x
,
y
)
)
=
∑
x
,
y
P
~
(
x
)
(
l
o
g
P
(
y
∣
x
)
+
1
−
w
0
−
∑
i
=
1
n
(
w
i
f
i
(
x
,
y
)
)
\begin{aligned} \frac{\partial L(P,w)}{\partial P(y|x))} & =\sum_{x,y}{\tilde P(x)(logP(y|x)+1)}-\sum_y{w_0}-\sum_{x,y}(\tilde P(x)\sum_{i=1}^n{w_if_i(x,y))} \\ & =\sum_{x,y}{\tilde P(x)(logP(y|x)+1-w_0-\sum_{i=1}^n{(w_if_i(x,y)})} \\ \end{aligned}
∂P(y∣x))∂L(P,w)=x,y∑P~(x)(logP(y∣x)+1)−y∑w0−x,y∑(P~(x)i=1∑nwifi(x,y))=x,y∑P~(x)(logP(y∣x)+1−w0−i=1∑n(wifi(x,y)) 令偏导数等于0,在
P
~
(
x
)
>
0
\tilde P(x)>0
P~(x)>0的情况下”,需要将括号内置0,解得
P
(
y
∣
x
)
P(y|x)
P(y∣x)。
疑惑:在等式第二行的括号中, l o g P ( y ∣ x ) < 0 logP(y|x)<0 logP(y∣x)<0, f i ( x , y ) ≥ 0 f_i(x,y)\ge0 fi(x,y)≥0,拉格朗日乘子非负,但是由于这个1的存在,无法得到括号内非负或者非正的结论,又怎么可以轻易置0呢?
猜测:我在很多博文中看到这一步骤直接跳过,但又百思不得其解。
书中最后得到最大熵模型的一般表达式如下:
P
w
(
y
∣
x
)
=
1
Z
w
(
x
)
exp
(
∑
i
=
1
n
w
i
f
i
(
x
,
y
)
)
Z
w
(
x
)
∑
y
exp
(
∑
i
=
1
n
w
i
f
i
(
x
,
y
)
)
P_w(y|x)=\frac{1}{Z_w(x)}\text {exp}(\sum_{i=1}^nw_if_i(x,y)) \\ Z_w(x)\sum_y{\text{exp}(\sum_{i=1}^nw_if_i(x,y))}
Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))Zw(x)y∑exp(i=1∑nwifi(x,y)) 这里,
x
∈
R
n
x\in R^n
x∈Rn为输入,
y
∈
{
1
,
2
,
.
.
.
,
K
}
y\in \left \{1,2,...,K\right\}
y∈{1,2,...,K}为输出,
w
∈
R
n
w\in R^n
w∈Rn为权值向量,
f
i
(
x
,
y
)
f_i(x,y)
fi(x,y),
i
=
1
,
2
,
.
.
.
,
n
i=1,2,...,n
i=1,2,...,n为任意实值特征函数。
我发现其中的
w
0
w_0
w0并没有包含进去,也就是说,结果与
w
0
w_0
w0无关,如果要让1不造成影响,只要将
w
0
=
1
w_0=1
w0=1即可,这样括号内一定为非正,置0的做法成立。如此看来确实是小问题,直接考虑偏导等于0就行。