最大熵模型

最新推荐文章于 2024-07-29 07:45:00 发布

langzhining

最新推荐文章于 2024-07-29 07:45:00 发布

阅读量62

点赞数

本文链接：https://blog.csdn.net/langzhining/article/details/51888435

版权

1. 极大似然估计在机器学习中的应用

在有监督学习中要求的是标签下的条件概率，极大似然学习的是概率分布 P ，可把P看作是条件概率，使用极大似然，得到概率模型
- 应用模型：最大熵模型
在无监督学习中，标签不知道，只能在推导中使用极大似然估计的过程
- 应用：EM算法（GMM模型）

2. 熵

熵是平均不确定性的独立，函数到值的映射（泛函）
1. 平均互信息量（衡量确定性）：

I (X, Y) = H (X) - H (X | Y) = H (Y) - H (Y | X)

$I(X, Y) = H(X)-H(X|Y)=H(Y)-H(Y|X)$
2. 交叉熵（不确定性，非对称）：

H (X; Y) = H (X) + K L (X | | Y) = I (X, Y) + H (X | Y) + K L (X | | Y)

$H(X; Y) = H(X)+KL(X||Y)=I(X,Y)+H(X|Y)+KL(X||Y)$
3. KL散度（不确定性，非对称）：

K L (X | | Y) = H (X; Y) - H (X)

$KL(X||Y) = H(X;Y) - H(X)$
4. 条件熵和KL散度最小时，平均互信息量最大

3. 最大熵模型推导

最大熵原理：承认已知事物，对未知事物不做任何假设，没有偏见，最大熵存在且唯一（凸优化）
模型一般形式（在约束条件下求条件熵最大化）
$min P \in C - H (P) = - H (Y | X) = \sum x, y P (x) P (y | x) l o g P (y | x)$ $\min_{P \in C} -H(P)=-H(Y|X)=\sum_{x,y}P(x)P(y|x)logP(y|x)$ $s . t . E p (f i) = E p ¯ (f i)$ $s.t. E_p(f_i)=E_\bar{p}(f_i)$ $\sum y P (y | x) = 1$ $\sum_{y}P(y|x)=1$ 其中 $E_\bar{p}(f_i)=\sum_{x,y}p(x,y)f_i(x,y)$ ， $f_i$ 为特征，当 $x,y$ 满足特征条件， $f_i(x,y)=1$ ，否则为0
写成拉格朗日形式：
$L (P, w) = - H (P) + w 0 (1 - \sum y P (y | x)) + \sum i = 1 n w i (E p ¯ (f i) - E p (f i)) = \sum x, y P ¯ (x) P (y | x) l o g P (y | x) + w 0 (1 - \sum y P (y | x)) + \sum j = 1 n w i (\sum x, y P ¯ (x, y) f i (x, y) - \sum x, y P ¯ (x) P (y | x) f i (x, y))$ $L(P, w)=-H(P)+w_0(1-\sum_{y}P(y|x))+\sum_{i=1}^{n}{w_i(E_\bar{p}(f_i)-E_p(f_i))} =\sum_{x,y}\bar{P}(x)P(y|x)logP(y|x)+w_0(1-\sum_{y}{P(y|x)})+\sum_{j=1}^{n}{w_i(\sum_{x,y}\bar{P}(x,y)f_i(x,y)-\sum_{x,y}\bar{P}(x)P(y|x)f_i(x,y))}$
原问题和对偶问题：
$原问题： min P \in C max w L (P, w)$ $原问题： \min_{P \in C} \max_{w}L(P,w)$ $对偶问题： max w min P \in C L (P, w)$ $对偶问题： \max_{w}\min_{P \in C}L(P,w)$ $求对偶函数 : φ = min P \in C L (P, w) = L (P w, w)$ $求对偶函数: \varphi=\min_{P \in C}L(P,w)=L(P_w,w)$
对 $P(y|x)$ 求偏导数，令其为0，得到条件概率分布 $P_w(y|x)$ ，之后求 $w$ ，得到最大熵模型
$P (y | x) = e x p (\sum i = 1 n w i f i (x, y) + w 0 - 1) = e x p ( \sum w i f i ( x , y ) ) e x p ( 1 - w 0 )$ $P(y|x)=exp(\sum_{i=1}^{n}{w_if_i(x,y)}+w_0-1)=\frac{exp(\sum{w_if_i(x,y))}}{exp(1-w_0)}$ $归一化 : P w (y | x) = 1 Z e x p (\sum w i f i (x, y))$ $归一化: P_w(y|x)=\frac{1}{Z}exp(\sum{w_if_i(x,y))}$ $Z = \sum y e x p (\sum w i f i (x, y))$ $Z=\sum_{y}exp(\sum{w_if_i(x,y))}$
最大熵模型中的 $\varphi(w)$ 等价于最大熵模型的极大似然估计，两者可以相互证明其有效性
最大熵模型的优缺点
优点：
（1）建模时，试验者只需集中精力选择特征，而不需要花费精力考虑如何使用这些特征。
（2）特征选择灵活，且不需要额外的独立假定或者内在约束。
（3）模型应用在不同领域时的可移植性强。
（4）可结合更丰富的信息。
缺点：
（1）时空开销大
（2）数据稀疏问题严重
（3）对语料库的依赖性较强
最大熵模型的应用
词性标注、短语识别、指代消解、语法分析、机器翻译、文本分类、问题回答、语言模型

langzhining

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最大熵模型

1. 极大似然估计在机器学习中的应用在有监督学习中要求的是标签下的条件概率，极大似然学习的是概率分布PP，可把PP看作是条件概率，使用极大似然，得到概率模型应用模型：最大熵模型在无监督学习中，标签不知道，只能在推导中使用极大似然估计的过程应用：EM算法（GMM模型）2. 熵熵是平均不确定性的独立，函数到值的映射（泛函） 1. 平均互信息量（衡量确定性）：I(X,Y)=H
复制链接

扫一扫