最大熵模型（三）

最新推荐文章于 2020-01-15 15:32:18 发布

初沏的茶

最新推荐文章于 2020-01-15 15:32:18 发布

阅读量302

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/chuqidecha/article/details/80491689

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

最大熵模型-极大似然估计

最大熵模型（一）讲诉了最大熵原理以及最大熵模型定义，最大熵模型（二）讲诉了最大熵模型的学习及其公式推导，本篇讲诉最大熵模型的极大似然估计。

最大熵模型

P w (y | x) = 1 Z w e x p (\sum i = 1 n w i f i (x, y)))

$P_{w}(y|x) =\frac{1}{Z_{w}}exp(\sum_{i=1}^{n}w_if_i(x,y)))$
其中：

Z w (x) = \sum y e x p (\sum i = 1 n w i f i (x, y))

$Z_{w}(x)=\sum_{y}exp(\sum_{i=1}^{n}w_if_i(x,y))$

极大似然估计

对于给定数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdot\cdot\cdot,(x_N,y_N)\}$ ，其中 $x$ 的可能取值记为 $X = \{v_1,v2,\cdot\cdot\cdot,v_m\}$ ， $y$ 的可能取值记为 $Y = \{\gamma_1,\gamma_2,\cdot\cdot\cdot,\gamma_n\}$ 。用 $C(X=v_i,Y=\gamma_j)$ 表示样本 $(v_i,\gamma_j)$ 在数据集中出现的次数。

采用极大思然估计模型参数，似然函数为：

L (y 1, y 2, \cdot \cdot \cdot, y N | x 1, x 2, \cdot \cdot \cdot, x N) = \prod i = 1 N p (x i | y i) = \prod X, Y p (Y = γ j | X = v i) C (X = v i, Y = γ j)

$L(y_1,y_2,\cdot\cdot\cdot,y_N|x_1,x_2,\cdot\cdot\cdot,x_N) = \prod_{i=1}^Np(x_i|y_i) =\prod_{X,Y}p(Y=\gamma_j|X=v_i)^{C(X=v_i,Y=\gamma_j)}$
两边同时开N次方，得：

L (y 1, y 2, \cdot \cdot \cdot, y N | x 1, x 2, \cdot \cdot \cdot, x N) 1 N = \prod X, Y p (Y = γ i | x = v j) C ( X = v i , Y = γ j ) N = \prod X, Y p (Y = γ j | X = v i) p ˜ (X = v i, Y = γ j)

$\begin{align*} L(y_1,y_2,\cdot\cdot\cdot,y_N|x_1,x_2,\cdot\cdot\cdot,x_N)^{\frac{1}{N}} &=\prod_{X,Y}p(Y=\gamma_i|x=v_j)^{\frac{C(X=v_i,Y=\gamma_j)}{N}} \\ &=\prod_{X,Y}p(Y=\gamma_j|X=v_i)^{\widetilde{p}(X=v_i,Y=\gamma_j)} \end{align*}$

p˜(X=vi,Y=γj) p ~ ( X = v i , Y = γ j ) $\widetilde{p}(X=v_i,Y=\gamma_j)$ 表示数据集的经验概率分布。
对数似然为：

L p ˜ (P w) = N l o g \prod X, Y p (Y = γ j | X = v i) p ˜ (X = v i, Y = γ j) = N \sum X, Y p ˜ (X = v i, Y = γ j) l o g p (Y = γ j | X = v i)

$\begin{align*} L_\widetilde{p}(P_w) &= Nlog\prod_{X,Y}p(Y=\gamma_j|X=v_i)^{\widetilde{p}(X=v_i,Y=\gamma_j)} \\ &= N\sum_{X,Y}{\widetilde{p}(X=v_i,Y=\gamma_j)}logp(Y=\gamma_j|X=v_i) \\ \end{align*}$

L p ˜ (P w) \propto \sum X, Y p ˜ (X = v i, Y = γ j) l o g p (Y = γ j | X = v i)

$L_\widetilde{p}(P_w)\propto\sum_{X,Y}{\widetilde{p}(X=v_i,Y=\gamma_j)}logp(Y=\gamma_j|X=v_i)$
简记为：

L p ˜ (P w) = \sum x, y p ˜ (x, y) l o g p (y | x)

$L_\widetilde{p}(P_w) =\sum_{x,y}{\widetilde{p}(x,y)}logp(y|x)$
当条件概率是最大熵模型时，有：

L p ˜ (P w) = \sum x, y p ˜ (x, y) (\sum i = 1 n w i f i (x, y) - l o g Z w (x)) = \sum x, y p ˜ (x, y) \sum i = 1 n w i f i (x, y) - \sum x p ˜ (x, y) l o g Z w (x)

$\begin{align*} L_\widetilde{p}(P_w) &= \sum_{x,y}{\widetilde{p}(x,y)}(\sum_{i=1}^{n}w_if_i(x,y)-logZ_{w}(x)) \\ &=\sum_{x,y}{\widetilde{p}(x,y)}\sum_{i=1}^{n}w_if_i(x,y)-\sum_{x}{\widetilde{p}(x,y)}logZ_{w}(x) \end{align*}$

最大熵模型的对偶函数：

L (P w, w) = - H (p w) + \sum i = 1 n w i (E p ˜ (f i) - E p w (f i)) = \sum x, y p ˜ (x) p w (y | x) l o g p w (y | x) + \sum i = 1 n w i (\sum x, y p ˜ (x, y) f i (x, y) - \sum x, y p ˜ (x) p w (y | x) f i (x, y)) = \sum x, y p ˜ (x) p w (y | x) (\sum i = 1 n w i f i (x, y) - l o g Z w (x)) + \sum x, y p ˜ (x, y) \sum i = 1 n w i f i (x, y) - \sum x, y p ˜ (x) p w (y | x) \sum i = 1 n w i f i (x, y) = \sum x, y p ˜ (x, y) \sum i = 1 n w i f i (x, y) - \sum x, y p ˜ (x, y) p w (y | x) l o g Z w (x) = \sum x, y p ˜ (x, y) \sum i = 1 n w i f i (x, y) - \sum x p ˜ (x, y) l o g Z w (x)

$\begin{align*} L(P_w,w) &= -H(p_w) + \sum_{i=1}^{n}w_i(E_{\widetilde{p}}(f_{i})-E_{p_w}(f_{i})) \\ &= \sum_{x,y}\widetilde{p}(x)p_w(y|x)logp_w(y|x) + \sum_{i=1}^{n}w_i(\sum_{x,y}\widetilde{p}(x,y)f_i(x,y)-\sum_{x,y}\widetilde{p}(x)p_w(y|x)f_i(x,y)) \\ &=\sum_{x,y}\widetilde{p}(x)p_w(y|x)(\sum_{i=1}^{n}w_if_i(x,y) - logZ_w(x))+\sum_{x,y}\widetilde{p}(x,y)\sum_{i=1}^{n}w_if_i(x,y) - \sum_{x,y}\widetilde{p}(x)p_w(y|x)\sum_{i=1}^{n}w_if_i(x,y)\\ &=\sum_{x,y}{\widetilde{p}(x,y)}\sum_{i=1}^{n}w_if_i(x,y)-\sum_{x,y}{\widetilde{p}(x,y)}p_w(y|x)logZ_{w}(x) \\ &=\sum_{x,y}{\widetilde{p}(x,y)}\sum_{i=1}^{n}w_if_i(x,y)-\sum_{x}{\widetilde{p}(x,y)}logZ_{w}(x) \end{align*}$

因此有：

L p ˜ (P w) = L (P w, w)

$L_\widetilde{p}(P_w) = L(P_w,w)$

即最大熵模型学习中对偶函数极大化等价于最大熵模型的极大似然估计。

参考文献

李航《统计学习方法》
陈希孺《概率论与数理统计》

初沏的茶

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
最大熵模型（三）

最大熵模型-极大似然估计最大熵模型（一）讲诉了最大熵原理以及最大熵模型定义，最大熵模型（二）讲诉了最大熵模型的学习及其公式推导，本篇讲诉最大熵模型的极大似然估计。最大熵模型Pw(y|x)=1Zwexp(∑i=1nwifi(x,y)))Pw(y|x)=1Zwexp(∑i=1nwifi(x,y)))P_{w}(y|x) =\frac{1}{Z_{w}}exp(\sum_{i=1}^{n}w...
复制链接

扫一扫