《统计学习方法》--最大熵模型的学习：对偶函数求偏导的不解

最新推荐文章于 2024-07-25 08:20:58 发布

K_Snail

最新推荐文章于 2024-07-25 08:20:58 发布

阅读量239

点赞数

分类专栏：统计学习方法文章标签：机器学习

本文链接：https://blog.csdn.net/l1l1l1l/article/details/102877651

版权

统计学习方法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在《统计学习方法》第一版P84或第二版P99中提到：
“具体地，求 $L (P, w)$ 对 $P (y ∣ x)$ 的偏导数
$\begin{aligned} \frac{\partial L(P,w)}{\partial P(y|x))} & =\sum_{x,y}{\tilde P(x)(logP(y|x)+1)}-\sum_y{w_0}-\sum_{x,y}(\tilde P(x)\sum_{i=1}^n{w_if_i(x,y))} \\ & =\sum_{x,y}{\tilde P(x)(logP(y|x)+1-w_0-\sum_{i=1}^n{(w_if_i(x,y)})} \\ \end{aligned}$ 令偏导数等于0，在 $\tilde P(x)>0$ 的情况下”，需要将括号内置0，解得 $P (y ∣ x)$ 。

疑惑：在等式第二行的括号中， $l o g P (y ∣ x) < 0$ ， $f_i(x,y)\ge0$ ，拉格朗日乘子非负，但是由于这个1的存在，无法得到括号内非负或者非正的结论，又怎么可以轻易置0呢？

猜测：我在很多博文中看到这一步骤直接跳过，但又百思不得其解。
书中最后得到最大熵模型的一般表达式如下：
$P_w(y|x)=\frac{1}{Z_w(x)}\text {exp}(\sum_{i=1}^nw_if_i(x,y)) \\ Z_w(x)\sum_y{\text{exp}(\sum_{i=1}^nw_if_i(x,y))}$ 这里， $x\in R^n$ 为输入， $y\in \left \{1,2,...,K\right\}$ 为输出， $w\in R^n$ 为权值向量， $f_i(x,y)$ ， $i = 1, 2, . . ., n$ 为任意实值特征函数。
我发现其中的 $w_0$ 并没有包含进去，也就是说，结果与 $w_0$ 无关，如果要让1不造成影响，只要将 $w_0=1$ 即可，这样括号内一定为非正，置0的做法成立。如此看来确实是小问题，直接考虑偏导等于0就行。

K_Snail

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》--最大熵模型的学习：对偶函数求偏导的不解

在《统计学习方法》第一版P84或第二版P99中提到： “具体地，求L(P,w)L(P, w)L(P,w)对P(y∣x)P(y|x)P(y∣x)的偏导数∂L(P,w)∂P(y∣x))=∑x,yP~(x)(logP(y∣x)+1)−∑yw0−∑x,y(P~(x)∑i=1nwifi(x,y))=∑x,yP~(x)(logP(y∣x)+1−w0−∑i=1n(wifi(x,y))\begin{al...
复制链接

扫一扫

专栏目录