《统计学习方法》--最大熵模型的学习:对偶函数求偏导的不解

  在《统计学习方法》第一版P84或第二版P99中提到:
  “具体地,求 L ( P , w ) L(P, w) L(P,w) P ( y ∣ x ) P(y|x) P(yx)的偏导数
∂ L ( P , w ) ∂ P ( y ∣ x ) ) = ∑ x , y P ~ ( x ) ( l o g P ( y ∣ x ) + 1 ) − ∑ y w 0 − ∑ x , y ( P ~ ( x ) ∑ i = 1 n w i f i ( x , y ) ) = ∑ x , y P ~ ( x ) ( l o g P ( y ∣ x ) + 1 − w 0 − ∑ i = 1 n ( w i f i ( x , y ) ) \begin{aligned} \frac{\partial L(P,w)}{\partial P(y|x))} & =\sum_{x,y}{\tilde P(x)(logP(y|x)+1)}-\sum_y{w_0}-\sum_{x,y}(\tilde P(x)\sum_{i=1}^n{w_if_i(x,y))} \\ & =\sum_{x,y}{\tilde P(x)(logP(y|x)+1-w_0-\sum_{i=1}^n{(w_if_i(x,y)})} \\ \end{aligned} P(yx))L(P,w)=x,yP~(x)(logP(yx)+1)yw0x,y(P~(x)i=1nwifi(x,y))=x,yP~(x)(logP(yx)+1w0i=1n(wifi(x,y))  令偏导数等于0,在 P ~ ( x ) > 0 \tilde P(x)>0 P~(x)>0的情况下”,需要将括号内置0,解得 P ( y ∣ x ) P(y|x) P(yx)

疑惑:在等式第二行的括号中, l o g P ( y ∣ x ) < 0 logP(y|x)<0 logP(yx)<0 f i ( x , y ) ≥ 0 f_i(x,y)\ge0 fi(x,y)0,拉格朗日乘子非负,但是由于这个1的存在,无法得到括号内非负或者非正的结论,又怎么可以轻易置0呢

猜测:我在很多博文中看到这一步骤直接跳过,但又百思不得其解。
  书中最后得到最大熵模型的一般表达式如下:
P w ( y ∣ x ) = 1 Z w ( x ) exp ( ∑ i = 1 n w i f i ( x , y ) ) Z w ( x ) ∑ y exp ( ∑ i = 1 n w i f i ( x , y ) ) P_w(y|x)=\frac{1}{Z_w(x)}\text {exp}(\sum_{i=1}^nw_if_i(x,y)) \\ Z_w(x)\sum_y{\text{exp}(\sum_{i=1}^nw_if_i(x,y))} Pw(yx)=Zw(x)1exp(i=1nwifi(x,y))Zw(x)yexp(i=1nwifi(x,y))  这里, x ∈ R n x\in R^n xRn为输入, y ∈ { 1 , 2 , . . . , K } y\in \left \{1,2,...,K\right\} y{1,2,...,K}为输出, w ∈ R n w\in R^n wRn为权值向量, f i ( x , y ) f_i(x,y) fi(x,y) i = 1 , 2 , . . . , n i=1,2,...,n i=1,2,...,n为任意实值特征函数。
  我发现其中的 w 0 w_0 w0并没有包含进去,也就是说,结果与 w 0 w_0 w0无关,如果要让1不造成影响,只要将 w 0 = 1 w_0=1 w0=1即可,这样括号内一定为非正,置0的做法成立。如此看来确实是小问题,直接考虑偏导等于0就行。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值