信息论学习模型----最大熵原则

最新推荐文章于 2021-12-26 22:27:31 发布

柳叶吴钩

最新推荐文章于 2021-12-26 22:27:31 发布

阅读量1.2k

点赞数

分类专栏：神经网络与机器学习笔记文章标签：神经网络与机器学习

本文链接：https://blog.csdn.net/moge19/article/details/82319053

版权

神经网络与机器学习笔记专栏收录该内容

40 篇文章 11 订阅

订阅专栏

最大熵原则

当根据不完整的信息作为依据进行推断时，应该由满足分布限制条件的具有最大熵的概率分布推得。

最大熵问题是一个约束最优化问题。要说明解这个问题的步骤，考虑最大微分熵：

h (X) = - \int + \infty - \infty p x (x) log p x (x) d x

$h(X) = -\int_{-\infty}^{+\infty}{p_x(x) \log p_x(x)} \,{\rm d}x$
对所有随机变量X的概率密度函数

px(x) p x ( x ) $p_x(x)$ ，满足以下约束条件：
1.

px(x)≥0 p x ( x ) ≥ 0 $p_x(x) \geq 0$ ,在

x x $x$ 的支持集之外等式成立；
2.

\int_{- \infty}^{+ \infty} p_{x} (x) d x = 1

$\int_{-\infty}^{+\infty}{p_x(x)} {\rm d}x =1$ ；
3.

∫+∞−∞px(x)gi(x)dx=ai,对i=1,2,...,m ∫ − ∞ + ∞ p x ( x ) g i ( x ) d x = a i , 对 i = 1 , 2 , . . . , m $\int_{-\infty}^{+\infty}{p_x(x) g_i(x)} \,{\rm d}x =a_i,对i=1,2,...,m$ ；
其中

gi(x) g i ( x ) $g_i(x)$ 是x的一部分函数，约束1和约束2描述概率密度函数的基本属性，约束3定义变量X的矩，它随

gi(x) g i ( x ) $g_i(x)$ 的表达式不同而发生变化。

p x (x) = e x p (- 1 + λ 0 + \sum i = 1 m λ i g i (x)) (式 1)

$p_x(x) = exp(-1 + \lambda _0+ \sum_{i=1}^m \lambda _i g_i(x)) \tag{式1}$
式1定义了最大熵问题的最大熵分布，其解法如下：
首先形成拉格朗日函数：

\int + \infty - \infty [- p x (x) log p x (x) + λ 0 + \sum i = 1 m λ i g i (x) p x (x) d x] (式 2)

$\int_{-\infty}^{+\infty}[-p_x(x) \log p_x(x) + \lambda _0 + \sum_{i=1}^m \lambda _ig_i(x)p_x(x)\,{\rm d}x ] \tag{式2}$
其中

λ0，λi，....,λi λ 0 ， λ i ， . . . . , λ i $\lambda _0，\lambda _i，....,\lambda _i$ 是拉格朗日乘子，对式2的被积函数求

px(x) p x ( x ) $p_x(x)$ 的微分，并使其为0，得到

- 1 - log p x (x) + λ 0 + \sum i = 1 m λ i g i (x) = 0

$-1-\log p_x(x) + \lambda _0+ \sum_{i=1}^m \lambda _ig_i(x)=0$
解此方程得到式1。

一维高斯分布

假设用先验知识为随机变量X的均值 $\mu$ 和方差 $\sigma ^2$ ,根据定义随机变量X的方差由下式给出：

\int + \infty - \infty (x - μ) 2 p x (x) d x = σ 2 = 常 数

$\int_{-\infty}^{+\infty}(x- \mu)^2p_x(x)\,{\rm d}x = \sigma ^2 = 常数$
将此式与约束条件3作比较，看出

g 1 (x) = (x - μ) 2

$g_1(x) = (x-\mu )^2$
和

a 1 = σ 2

$a_1 = \sigma ^2$
所有带入式1可得：

p x (x) = e x p [- 1 + λ 0 + λ 1 (x - μ) 2]

$p_x(x) = exp[-1 + \lambda _0+ \lambda _1(x - \mu)^2]$
将此等式带入约束条件2和3，解出

σ0和σi σ 0 和 σ i $\sigma _0和 \sigma _i$ 得到：

λ 0 = 1 - log (2 π σ 2)

$\lambda _0 = 1- \log (2 \pi \sigma^2)$
和

λ 1 = - 1 2 σ 2

$\lambda _1 = - \frac{1}{2\sigma^2}$
所以得到的

px(x) p x ( x ) $p_x(x)$ 的分布形式为：

p x (x) = 1 2 π μ - - - \sqrt e x p (- ( x - μ ) 2 2 σ 2)

$p_x(x) = \frac{1}{\sqrt {2 \pi \mu}}exp( -\frac{(x-\mu)^2}{2\sigma ^2})$

这样的随机变量的微分方程最大值为：

h (X) = 1 2 [1 + l o g (2 π σ 2)]

$h(X) = \frac{1}{2}[1 + log(2 \pi \sigma ^2 )]$

多维高斯分布

建立计算多维高斯分布的微分熵的计算公式，由于高斯分布的熵与随机变量X的均值无关，为简化讨论，仅讨论具有均值为0的随机变量X。这样二阶统计性质由其协方差矩阵 $\sum$ 决定，它为X同自身的外积的期望所定义，这样X的联合密度函数由：

p x (x) = 1 （ 2 π ） m / 2 ( d e t ( Σ ) ) 1 / 2 e x p (- 1 2 X T Σ - 1 X)

$p_x(x) = \frac{1}{（2\pi）^{m/2}(det(\Sigma))^{1/2}}exp(- \frac{1}{2}X^T \Sigma^{-1}X)$
根据X微分熵的定义。得到：

h (X) = 1 2 [m + m log (2 π) + log | d e t (Σ) |]

$h(X) = \frac{1}{2}[m+m\log(2\pi) +\log|det(\Sigma)|]$

柳叶吴钩

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录