熵（熵，条件熵）与最大熵模型

最新推荐文章于 2022-04-07 19:33:11 发布

geter_CS

最新推荐文章于 2022-04-07 19:33:11 发布

阅读量1.1k

点赞数 3

分类专栏：机器学习文章标签：最大熵模型熵条件熵

本文链接：https://blog.csdn.net/geter_CS/article/details/84572199

版权

机器学习专栏收录该内容

21 篇文章 3 订阅

订阅专栏

熵

熵在概率论中是很重要的概念。表示随机变量不确定性的度量。设随机变量 $X$ 其概率分布为 $P(X=x_i)=p_i，i=1,2...n$
则 $X$ 的熵可以表示为
$H(p)=-\sum_{i=1}^{n}p_ilog(p_i)$
这里由于 $X$ 的熵与其取值没有关系，所以直接表示为 $H (p)$ .
对于一个随机变量来说，其随机性越大，那么熵就越大。那么最极致的情况是什么呢？一个随机变量每一个取值对应一个概率，某个值概率越大，那么随机变量就越可能取这个值，那么其确定性也就越大。当某个值为1时，随机变量就是确定的了。因此可以看出当每个值的概率相等时，随机变量的不确定性最大，也就是 $p = 1 / n$ 。此时熵为 $l o g (n)$
熵越大，随机性越大，那么可知熵满足：
$0\leq H(p) \leq log(n)$

条件熵

设随机变量 $(X, Y)$ ,其联合概率分布为：
$P(X=x_i,Y=y_j)=p_{i,j} ，i=1..n，j=1..m$
条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量Y的不确定性。定义为 $X$ 给定条件下 $Y$ 的条件概率的熵对 $X$ 的数学期望。
$H(Y|X)=\sum^n_i p_iH(Y|X=x_i)$
其中 $p_i=P(X=x_i)$ $H(Y|X=x_i)=\sum_{j=1}^m p(Y=y_j|x_i)log( p(Y=y_j|x_i))$ 由条件概率的性质 $p (x) p (y ∣ x) = p (x, y)$ 所以有 $H(Y|X)=\sum^n_i\sum^m_j p(x_i) p(y_j|x_i)log(p(y_j|x_i))=\sum^n_i\sum^m_jp(x_i,y_j)log(p(y_j|x_i)$ ,这个式子在下面最大熵模型中会用到。

最大熵模型

最大熵模型是一种求解概率模型的方法
最大熵模型要说的一件什么事呢。我们想要求解的概率模型在满足已知确定约束的条件下，对于未知情况以相等概率处之，也就是对于未知情况满足最大熵。例如一个不均匀的骰子，我们已知出现3点的概率为1/3，对于其他点数我们并不知道，那么最大熵模型就会认为其他点数出现的概率都是2/15（共享2/3）。这样概率分布具有最大的熵。
下面给出最大熵模型的定义我们所求的目标是一个分类模型，即一个条件概率分布 $P (Y ∣ X)$ ，给定一个输入 $X$ 输出其所属类别 $Y$ 。给定一个训练数据集，我们称之为经验：
$T=\{(x_1,y_1),(x_2,y_2)...(x_N,y_N)\}$
将基于此经验之上的联合分布 $P (X, Y)$ 的经验分布和边缘分布 $P (X)$ 的经验分布分别表示为 $\tilde{P}(X,Y)$ ， $\tilde{P}(X)$ ，这两个都是可以基于已知经验算出来的。比如：
$\tilde{P}(X=x,Y=y)=\frac{X=x且Y=y经验的个数}{N}$
$\tilde{P}(X=x)=\frac{X=x经验的个数}{N}$
在实际中，由于数据特征很大，而我们有要求模型有很好的泛化性，即我们希望在数据缺失的区域模型也可以达到很好的效果，因此在最大熵模型中对数据空间进行的压缩，使用特征函数来对数据进行转换：
$f(x,y)=\left\{\begin{matrix} 1，x与y满足某一事实 \\ 0，否则 \end{matrix}\right.$
这个特征函数描述了输入x，输出y之间的某一个事实，也可以自己定义特征函数，这样就每一对原始数据就可以转化为有限空间中的数据，把问题简化了。
特征函数 $f (x, y)$ 关于经验分布 $\tilde{P}(X,Y)$ 的期望可以用
$E_{\tilde{p}}(f)=\sum_{x,y}\tilde{P}(x,y)f(x,y)$
相对应的特征函数 $f (x, y)$ 关于模型分布 $P (Y ∣ X)$ 的期望为：
$E_{p}(f)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)$
此式中，由条件概率性质 $\tilde{P}(x)\tilde P(y|x)=\tilde{P}(x,y)$ ,这里由于我们要求的是条件概率模型 $P (Y ∣ X)$ ，所以引入了 $\tilde{P}(x)P(y|x)$ ，我们希望从经验所求的模型分布 $P (Y ∣ X)$ 使得：
$E_{p}(f)=E_{\tilde{p}}(f) \qquad(1)$ 即 $\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)=\sum_{x,y}\tilde{P}(x,y)f(x,y) \qquad(2)$
上面(1)可以作为模型学习的约束条件。因此最大熵模型可以定义为如下形式：
假设满足所有约束条件的概率分布集合为 $C=\{P|E_{p}(f_i)=E_{\tilde{p}}(f_i)，i=1,2,3...n\}$ 定义在条件概率分布 $P (Y ∣ X)$ 上的条件熵（见上面条件熵）为 $H(p)=-\sum_{x,y}\tilde{P}(x)P(y|x)log(P(y|x))$ 则模型集合C中条件熵 $H (p)$ 最大的模型称 最大熵模型 式子中对数为自然对数。
最大熵模型也可以从KL散度的角度来解释。
最大熵模型的求解可以使用梯度下降(SGD)求解,也可以使用
改进的迭代尺度(improved iterative scaling, IIS)求解。见下一篇

参考书1：概率论与数理统计浙江大学第四版
参考书2：统计学习方法李航
参考书3：强化学习精要：核心算法与TensorFlow实现

geter_CS

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
熵（熵，条件熵）与最大熵模型

熵熵在概率论中是很重要的概念。表示随机变量不确定性的度量。设随机变量XXX其概率分布为P(X=xi)=pi，i=1,2...nP(X=x_i)=p_i，i=1,2...nP(X=xi)=pi，i=1,2...n则XXX的熵可以表示为H(p)=−∑i=1npilog(pi)H(p)=-\sum_{i=1}^{n}p_ilog(p_i)H(p)=−i=1∑npilog(pi)这里由于...
复制链接

扫一扫

专栏目录