指数族分布和最大熵模型

最新推荐文章于 2022-08-12 17:11:55 发布

prupcognition

最新推荐文章于 2022-08-12 17:11:55 发布

阅读量737

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/m0_37896765/article/details/99461381

版权

机器学习算法专栏收录该内容

17 篇文章 0 订阅

订阅专栏

常见的指数族分布：

高斯分布
伯努利分布
二项分布
柏松分布
beta分布
gamma分布
基本形式：
$p(x|\eta)=h(x)exp[\eta^T\phi(x)-A(\eta)]$
其中：
$\eta 是参数向量$
$A(\eta)$ ：配分函数，也叫归一化因子
$\phi(x)$ : 充分统计量

最大熵原理是概率模型学习的一个准则.
最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型
信息量公式
$I(x)=\log\frac{1}{p(x)}=-\log p(x)$
信息熵是信息量的期望
$H(x)=E[I(x)]=-\sum p(x)\log p(x)$
求最大熵也就是求下列优化问题：
$max(H(x))=max(-\sum p(x)\log p(x))$
$\quad \sum p(x)=1$
为了应用拉格朗日公式，原式等价于：
$min(\sum p(x)\log p(x))$
$\quad \sum p(x)=1$
应用拉格朗日公式有：
$L(p(x),\lambda)=\sum p(x)\log p(x)+\lambda(1-\sum p(x))$
求最大的p(x)有，对p(x)求导，并令公式等于0有：
$\frac{\partial L}{\partial p(x)}=\log p(x)+p(x).\frac{1}{p(x)}-\lambda=0$
也就是
$p(x)=exp(\lambda-1)$
由于 $\lambda$ 是常数，所以当p(x)是常数的时候，熵最大，也就是均匀分布的时候

最大熵模型：
最大熵模型相比最大熵原理，多了一个条件：
满足已知事实的约束
那么已知的事实就是样本
$令data=\{x_1,x_2,...,x_n\}$
样本的概率为
$\hat p(X=x_i)=\displaystyle \frac{count(x_i)}{n}$
其中 $count(x_i)$ 表示样本中是 $x_i$ 的数量，n是样本个数
知道了每种样本的概率，也就知道了样本的期望值
用样本期望近似原函数期望，用f(x)表示x的函数向量，最优化问题可以描述为：
$min(\sum p(x)\log p(x))$
$\quad \sum p(x)=1$
$\quad E_p[f(x)]=E_{\hat p}[f(x)]=\delta$
拉格朗日方程为：
$L(p(x),\lambda,v)=\sum p(x)\log p(x)+\lambda(1-\sum p(x))+v^T(\delta-E_{\hat p}[f(x)])$
对p(x)求导有：
$\frac{\partial L}{\partial p(x)}=\sum(\log p(x)+1-\lambda-v^Tf(x))=0$
$\log p(x)=v^Tf(x)+\lambda -1$
$p(x)=exp\{ v^Tf(x)+\lambda -1 \}=exp\{ v^Tf(x)-(1-\lambda )\}$
可以看到最大熵模型的概率分布满足指数族分布