最大熵模型公式推荐

最新推荐文章于 2022-11-24 18:49:45 发布

Suppose-dilemma

最新推荐文章于 2022-11-24 18:49:45 发布

阅读量659

点赞数 2

分类专栏：机器学习文章标签：机器学习算法 python

本文链接：https://blog.csdn.net/ifhuke/article/details/126854575

版权

机器学习专栏收录该内容

13 篇文章 4 订阅

订阅专栏

文章目录

1. 条件熵
2. 最大熵原理
3. 最大熵模型定义
4. 最大熵学习

1. 条件熵

在这之前，我们先定义信息熵的概念，假设样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k=1,2,...,N)$ ，则 $D$ 的信息熵定义为
$Ent(D)=-\sum_{k=1}^{N}p_klog_2p_k$ $E n t (D)$ 的值越小，则 $D$ 的不确定性越高。

设 $\in \{ x_1,x_2,\cdots,x_n\}, Y \in \{ y_1,y_2,\cdots,y_m\}$ ，则已知条件 $X$ 下求 $Y$ 的条件熵为：
$H(Y|X)=\sum_{i=1}^np(x_i)H(Y|X=x_i)=- \sum_{i=1}^np(x_i) \sum_{j=1}^mp(y_i|x_i) \log p(y_i|x_i)$

2. 最大熵原理

最大熵原理指出，对一个随机事件的概率分布进行预测时，预测应当满足全部已知的约束，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小，因此得到的概率分布的熵是最大。

示例如下：
在这里插入图片描述

3. 最大熵模型定义

对于任意的特征函数 $f$ ,记 $E_p( f )$ 表示f在训练数据 $T$ 上关于 $p (x, y)$ 的数学期望，有:
$E_{\widetilde{p}}f=\sum_{x,y} \widetilde{p}(x,y)f(x,y)$ 对于任意的特征函数 $f$ ,记 $E_p( f )$ 表示f在模型上关于 $p (x, y)$ 的数学期望，有:
$E_{p}f=\sum_{x,y} p(x,y)f(x,y)$ 又因为式中 $p (x, y)$ 是未知的，并且我们建模的目标是 $p (y ∣ x)$ ，所以我们可以使用条件概率公式得到
$E_pf=\sum_{x,y} \widetilde{p}(x)p(y|x)f(x,y)$ 我们期望从训练数据中得到的期望应该和模型中的期望是一样的，所以有如下的约束：
$E_{\widetilde{p}}f=E_{p}f$ 假设满足所有约束条件的模型集合为
$\{E_P(f_i)= E_{\widetilde{p}}(f_i) \}$ 设条件熵为
$H(P)=-\sum_{x,y} \widetilde{P}(x)P(y|x) \log P(y|x)$ 在满足约束条件的集合中，使得条件熵最大的模型称之为最大熵模型。