计算对数似然函数改变量

已知最大熵模型为 P w ( y ∣ x ) = 1 Z w ( x ) e x p ( ∑ i = 1 n w i f i ( x , y ) ) P_{w}(y|x)=\frac{1}{Z_{w}(x)}exp\Big(\sum_{i=1}^nw_{i}f_{i}(x,y)\Big) Pw(yx)=Zw(x)1exp(i=1nwifi(x,y))其中, Z w ( x ) = ∑ y e x p ( ∑ i = 1 n w i f i ( x , y ) ) Z_{w}(x)=\sum_{y}exp\Big(\sum_{i=1}^nw_{i}f_{i}(x,y)\Big) Zw(x)=yexp(i=1nwifi(x,y))对数似然函数为 L ( w ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) log ⁡ Z w ( x ) L(w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_{x}\tilde{P}(x)\log{Z_{w}(x)} L(w)=x,yP~(x,y)i=1nwifi(x,y)xP~(x)logZw(x)
推导过程:
对于给定的经验分布 P ~ ( x , y ) \tilde{P}(x,y) P~(x,y),模型参数从 w w w w + δ w+\delta w+δ,对数似然函数的改变量是 L ( w + δ ) − L ( w ) = ∑ x , y P ~ ( x , y ) log ⁡ P w + δ ( y ∣ x ) − ∑ x , y P ~ ( x , y ) log ⁡ P w ( y ∣ x ) L(w+\delta)-L(w)=\sum_{x,y}\tilde{P}(x,y)\log{P_{w+\delta}(y|x)}-\sum_{x,y}\tilde{P}(x,y)\log{P_w(y|x)} L(w+δ)L(w)=x,yP~(x,y)logPw+δ(yx)x,yP~(x,y)logPw(yx) = ∑ x , y P ~ ( x , y ) log ⁡ ( 1 Z w + δ ( x ) e x p ( ∑ i = 1 n ( w i + δ i ) f i ( x , y ) ) ) − ∑ x , y P ~ ( x , y ) log ⁡ ( 1 Z w ( x ) e x p ( ∑ i = 1 n w i f i ( x , y ) ) ) =\sum_{x,y}\tilde{P}(x,y)\log{\bigg(\frac{1}{Z_{w+\delta}(x)}exp\Big(\sum_{i=1}^n({w_{i}+\delta_{i}})f_{i}(x,y)\Big)\bigg)-\sum_{x,y}\tilde{P}(x,y)\log{\bigg(\frac{1}{Z_{w}(x)}exp\Big(\sum_{i=1}^nw_{i}f_{i}(x,y)\Big)\bigg)}} =x,yP~(x,y)log(Zw+δ(x)1exp(i=1n(wi+δi)fi(x,y)))x,yP~(x,y)log(Zw(x)1exp(i=1nwifi(x,y))) = ∑ x , y P ~ ( x , y ) ( log ⁡ 1 Z w + δ ( x ) + ∑ i = 1 n ( ( w i + δ i ) f i ( x , y ) ) ) − ∑ x , y P ~ ( x , y ) ( log ⁡ 1 Z w ( x ) + ∑ i = 1 n ( w i f i ( x , y ) ) ) =\sum_{x,y}\tilde{P}(x,y)\Big(\log{\frac{1}{Z_{w+\delta}(x)}}+\sum_{i=1}^n((w_{i}+\delta_{i})f_{i}(x,y))\Big)-\sum_{x,y}\tilde{P}(x,y)\Big(\log{\frac{1}{Z_{w}(x)}}+\sum_{i=1}^n(w_{i}f_{i}(x,y))\Big) =x,yP~(x,y)(logZw+δ(x)1+i=1n((wi+δi)fi(x,y)))x,yP~(x,y)(logZw(x)1+i=1n(wifi(x,y))) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n δ i f i ( x , y ) − ∑ x P ~ ( x ) log ⁡ Z w + δ ( x ) Z w ( x ) =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^n\delta_{i}f_{i}(x,y)-\sum_{x}\tilde{P}(x)\log{\frac{Z_{w+\delta}(x)}{Z_{w}(x)}} =x,yP~(x,y)i=1nδifi(x,y)xP~(x)logZw(x)Zw+δ(x)
参考:
《统计学习方法》,李航,p89

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Memories off

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值