最大熵方法求概率密度函数

最新推荐文章于 2021-07-15 21:32:56 发布

omadesala

最新推荐文章于 2021-07-15 21:32:56 发布

阅读量9.9k

点赞数 5

分类专栏：基础概念文章标签：最大熵概率密度估计高斯函数证明

本文链接：https://blog.csdn.net/omade/article/details/17449471

版权

基础概念专栏收录该内容

13 篇文章

订阅专栏

最大熵方法求概率密度函数

信息熵，不确定度的描述，熵增加，不确定度增加，熵减小，不确定度减小。

离散型随机变量的信息熵
考虑一个一维的离散的随机变量X（此处不考虑扩展到多维的情况），可以取离散的值 $x_1,x_2,x_3,...$ ,对应的概率分别为 $p_1,p_2,p_3,...$ 则离散型随机变量的信息熵为：

$H(X)=-C\sum_{i}p(x_i)ln(p(x_i))=C\sum_{i}p(x_i)\frac{1}{ln(p(x_i))}$
连续型随机变量的信息熵
考虑一个一维的连续型的随机变量X，若它的概率密度分布函数为f(x),那X在(a,b)之间的信息熵为：

$H(X)=-C\int_{a}^{b}f(x_i)ln(f(x_i))dx=C\int_{a}^{b}f(x_i)\frac{1}{ln(f(x_i))}dx$

假设某个公司内部对所有员工进行了一次英语测试，测试结果分5个档次，分别为1分，2分，3分，4分，5分，假设已经知道平均分3.3分，每一个档次的概率分别为 $p_1,p_2,p_3,p_4,p_5$ ,可以看出概率分布是不确定的

$1*p_1+2*p_2+3*p_3+4*p_4+5*p_5=3.3$
$\sum_{i=1}^{5}p_i=1$

能满足上面式子的解有无限多个，要确定一组我们认为最合理，最好的解，就需要利用最大熵原则

要求出最大熵就先要写出最大熵的表达式：

$Entropy(P) = -\sum_{i=1}p_i ln(p_i)$

要最大化上面的熵表达式，同时要满足 $\sum_{i=1}=1$ 因此可以用拉格朗日乘子发求条件极值，得到下面的拉格朗日乘子式

$L(p_i) = -\sum_{i=1}p_i ln(p_i) + \lambda(\sum_{i=1}p_i -1)$

分别对 $p_i$ 进行求导，并让求导后的为0，求解出 $p_i$ 和 $\lambda$ ,得到如下等式

$\frac{\partial L(p_i)}{\partial p_i}=-lnp_i-1+\lambda$

可以求解出 $p_i$ 的表达式如下：

$p_i=e^{\lambda-1}$

接着把 $p_i$ 的解析式代入： $\sum_i p_i = 1$ 得到如下等式

$\sum_i^n p_i = \sum_i^n e^{\lambda-1} = ne^{\lambda-1} = 1$

$\lambda = ln(\frac{1}{n})+1$

$p_i=e^{ln(\frac{1}{n})+1-1} = \frac{1}{n}$

可以看出，对取值离散的随机过程，最大熵意味着取平均概率，也就是说当取值概率相等的时候，熵最大化，下面看连续变量的情况

我们从离散情况过度到连续情况，有如下等式

$\int_I f(x)dx = 1$

$\int_I g_i(x)f(x)dx = M_i , i = 1,2,...m$

$M_i$ 是平均值，它是一个常量， $g_i(x)$ 是对应随机变量取值x的时候的值，同样，需要先写出熵信息的等式，然后在约束条件下求出熵信息最大化的参数值

$L(x) = -\int_I f(x)ln(f(x))dx$

$L(x) = -\int_I f(x)ln(f(x))dx + \lambda_0(\int_I f(x)dx -1)+ \sum_{i=1}^m {\lambda_i (\int_I g_i(x)f(x)dx -M_i)}$

对L(x)求f(x)的偏导，得到下式：

$\frac{\partial L(x)}{\partial f(x)} = -\int_I (ln(f(x))+1)dx + \lambda_0(\int_I dx)+ \sum_{i=1}^m {\lambda_i (\int_I g_i(x)dx)} = 0$

$\frac{\partial L(x)}{\partial f(x)} = -\int_I [ln(f(x))+1 +\lambda_0+ \sum_{i=1}^m {\lambda_ig_i(x)}]dx = 0$

$[-(ln(f(x))+1)] +\lambda_0+ \sum_{i=1}^m {\lambda_ig_i(x)} = 0$

$ln(f(x))=-1 +\lambda_0+ \sum_{i=1}^m {\lambda_ig_i(x)}$

得到f(x) 的解析式：

$f(x)=e^{-1 +\lambda_0+ \sum_{i=1}^m {\lambda_ig_i(x)}}$

只要求出 $\lambda_0,\lambda_1,...,\lambda_m$ 就可以得到f(x)的解析表达式，剩下的工作就是估计这些未知的参数了。

从上面的分析可以看出，我们只要在最大熵的条件下，加上约束条件，就可能得到不同的概率分布解析式，下面我们加上均值和方差为常量的约束，看看可以得到什么样的解析式，约束条件如下：

$\int_{-\infty}^{\infty} xf(x)dx=\mu$

$\int_{-\infty}^{\infty} (x-\mu)^2 f(x)dx=\delta^2$

$\int_{-\infty}^{\infty} f(x)dx=1$

根据前面我们求出来的最大熵条件下连续变量概率密度表达式 $f(x)=e^{1 +\lambda_0+ \sum_{i=1}^m {\lambda_ig_i(x)}}$ 可以得到约束条件下的解析表达式如下：

$f(x)=e^{-1 +\lambda_0+\lambda_1 x+\lambda_2 (x-\mu)^2}$

整理其形式，得到如下形式

$f(x)=e^{-1 +\lambda_0+\lambda_1 x+\lambda_2 (x-\mu)^2} =C e^{\lambda_2[x-(\mu-\frac{\lambda_1}{2\lambda_2})]^2}$

其中，C是修整以后代替 $\lambda_0$ 的待定系数，并做如下替换

$y=x-(\mu-\frac{\lambda_1}{2\lambda_2})$

加上约束条件： $\int_{-\infty}^{\infty} f(x)dx=1$ ，可以得到下式：

$\int_{-\infty}^{\infty} f(x)dx=\int_{-\infty}^{\infty} f(y)dy = C\sqrt{\frac{\pi}{-\lambda_2}} = 1$

$\int_{-\infty}^{\infty} e^{-{x^2}}dx =\frac{1}{\sqrt{2}}\int_{-\infty}^{\infty} e^{-\frac{({\sqrt{2}x})^2}{2}} d(\sqrt{2}x) = \frac{1}{\sqrt{2}}\sqrt{2\pi}=\sqrt{\pi}$

$\int_{-\infty}^{\infty}f(x)dx=\int_{-\infty}^{\infty}C e^{\lambda_2[x-(\mu-\frac{\lambda_1}{2\lambda_2})]^2}dx$

$=\int_{-\infty}^{\infty}C e^{-\lambda_2(-[x-(\mu-\frac{\lambda_1}{2\lambda_2})]^2)}dx$

$=C\frac{1}{\sqrt{-\lambda_2}}\int_{-\infty}^{\infty} e^{(-[\sqrt{-\lambda_2}x-\sqrt{-\lambda_2}(\mu-\frac{\lambda_1}{2\lambda_2})]^2)}d(\sqrt{-\lambda_2}x-\sqrt{-\lambda_2}(\mu-\frac{\lambda_1}{2\lambda_2}))$

$=C\frac{1}{\sqrt{-\lambda_2}}\int_{-\infty}^{\infty} e^{-y^2}dy$

$=C\frac{1}{\sqrt{-\lambda_2}}\int_{-\infty}^{\infty} e^{-y^2}dy =C\frac{1}{\sqrt{-\lambda_2}}\sqrt{\pi}= 1$

这里用到了一个概率积分的结果 $\int_{-\infty}^{\infty} e^{-\frac{x^2}{2}}dx = \sqrt{2\pi}$ ，这里不讨论这个结果的证明，搜索概率积分有很多次结论的文章，利用这个结论可以得到下式结果：

$C=\sqrt{\frac{-\lambda_2}{\pi}}$

把平均值条件 $\int_{-\infty}^{\infty} xf(x)dx=\mu$ 考虑进来，有下式：

$\int_{-\infty}^{\infty} xf(x)dx= \int_{-\infty}^{\infty} (y+\mu-\frac{\lambda_1}{2\lambda_2})f(y)dy= \mu$

做一个整理，有下式：

$\int_{-\infty}^{\infty} yf(y)dy+ \int_{-\infty}^{\infty} (\mu-\frac{\lambda_1}{2\lambda_2})f(y)dy= \mu$

$\int_{-\infty}^{\infty} yf(y)dy+ (\mu-\frac{\lambda_1}{2\lambda_2})\int_{-\infty}^{\infty} f(y)dy= \mu$

因为有约束： $\int_{-\infty}^{\infty} f(x)dx=1$ ，因此得到

$\int_{-\infty}^{\infty} yf(y)dy= \frac{\lambda_1}{2\lambda_2}$

因为yf(y)为奇函数，因此其积分应为0，因此有： $\int_{-\infty}^{\infty} yf(y)dy= \frac{\lambda_1}{2\lambda_2}=0$ ，因此有 $\lambda_1=0$ 因此可以得到下面的结果

$f(x)= \sqrt{\frac{-\lambda_2}{\pi}} e^{\lambda_2(x-\mu)^2}$

在利用方差约束： $\int_{-\infty}^{\infty} (x-\mu)^2f(x)dx = \delta^2$ ,和自然对数函数积分公式，得到如下结果：

$\int_{-\infty}^{\infty} (x-\mu)^2f(x)dx = \int_{-\infty}^{\infty} (x-\mu)^2 \sqrt{\frac{-\lambda_2}{\pi}} e^{\lambda_2(x-\mu)^2} dx$

$= \sqrt{\frac{-\lambda_2}{\pi}} \int_{-\infty}^{\infty} (x-\mu)^2 e^{\lambda_2(x-\mu)^2} dx$

令 $x= x-\mu$ ,整理得到：

$= \sqrt{\frac{-\lambda_2}{\pi}} \int_{-\infty}^{\infty} x^2 e^{\lambda_2x^2} dx$

$= \sqrt{\frac{-\lambda_2}{\pi}} \frac{1}{-2\lambda_2}\int_{-\infty}^{\infty} x d(e^{-[\sqrt{-\lambda_2}x]^2})$

$= \sqrt{\frac{-\lambda_2}{\pi}} \frac{1}{-2\lambda_2}[xe^{-[\sqrt{-\lambda_2}x]^2}\mid_{-\infty}^{\infty} +\int_{-\infty}^{\infty} e^{-[\sqrt{-\lambda_2}x]^2})dx ]$

根据洛比达法则，计算极限： $= [x e^{-[\sqrt{-\lambda_2}x]^2}\mid_{-\infty}^{\infty} = 0$ ，所以有下面的式子

$= \sqrt{\frac{-\lambda_2}{\pi}} \frac{1}{-2\lambda_2}\int_{-\infty}^{\infty} e^{-[\sqrt{-\lambda_2}x]^2}dx ]$

我们重点看里面这块的积分

$\int_{-\infty}^{\infty} e^{-[\sqrt{-\lambda_2}x]^2}dx = \frac{1}{\sqrt{-\lambda_2}} \int_{-\infty}^{\infty} e^{-[\sqrt{-\lambda_2}x]^2})d(\sqrt{-\lambda_2}x) = \sqrt{\pi}\frac{1}{\sqrt{-\lambda_2}}$

$\int_{-\infty}^{\infty} (x-\mu)^2f(x)dx = \sqrt{-\frac{\lambda_2}{\pi}} \frac{\sqrt{\pi}}{2(-\lambda_2)^{\frac{3}{2}}}= -\frac{1}{2\lambda_2} =\delta^2$

整理得到下面结论：

$\lambda_2 =-\frac{1}{2\delta^2}$

现在得到了 $C,\lambda_1,\lambda_2,$ ，代入 $f(x)=e^{-1 +\lambda_0+ \sum_{i=1}^m {\lambda_ig_i(x)}}$ 得到下式：

$f(x)=\frac{1}{\sqrt{2 \pi}\delta^2}e^{-\frac{(x-\mu)^2}{2\delta^2}}$

这就是我们熟悉的正态分布的形式。

从上面可以看到，在给定约束条件下，基于最大熵原理可以得到某种概率分布函数，给定常量的均值和方差，可以得出正态分布，这个思路指明了不同的约束会导致不同的概率分布结果。其他的约束不再讨论了。重点是在用这个原理可以求概率分布，我们可以看到概率分布已经是指数形式了，所以只是求其中的系数问题，可以通过学习的方法从样本中得到。

我们来看看其中的参数怎么求？

这里会用到上面的结论，约束条件和连续概率密度函数表达式：

$\int_{-\infty}^{\infty} f(x)dx = 1$

$\int_{-\infty}^{\infty} g_i(x)f(x)dx = M_i , i = 1,2,...m$

$f(x)=e^{-1 +\lambda_0+ \sum_{i=1}^m {\lambda_ig_i(x)}}$

为了方便起见，这里做一个替换 $\lambda_0=-1 +\lambda_0$ 得到下面结论：

$f(x)=e^{\lambda_0+ \sum_{i=1}^m {\lambda_ig_i(x)}}$

将概率密度表达式代入概率积分为1的条件可以得到下面结果：

$\int_{-\infty}^{\infty}f(x)dx=\int_{-\infty}^{\infty}e^{\lambda_0+ \sum_{i=1}^m {\lambda_ig_i(x)}}dx = 1$

$e^{-\lambda_0}=\int_{-\infty}^{\infty}e^{\sum_{i=1}^m {\lambda_ig_i(x)}}dx$

$\lambda_0=-ln[\int_{-\infty}^{\infty}e^{\sum_{i=1}^m {\lambda_ig_i(x)}}dx]$

对 $e^{-\lambda_0}=\int_{-\infty}^{\infty}e^{\sum_{i=1}^m {\lambda_ig_i(x)}}dx$ 求偏导，得到下式：

$\frac{\partial \lambda_0}{\partial \lambda_i}e^{-\lambda_0}=\int_{-\infty}^{\infty}g_i(x)e^{\sum_{i=1}^m {\lambda_ig_i(x)}}dx$

整理得到

$\frac{\partial \lambda_0}{\partial \lambda_i}=-\int_{-\infty}^{\infty}g_i(x)e^{\lambda_0+\sum_{i=1}^m {\lambda_ig_i(x)}}dx = -M_i$

对 $\lambda_0=-ln[\int_{-\infty}^{\infty}e^{\sum_{i=1}^m {\lambda_ig_i(x)}}dx]$ 求偏导数

$-\frac{\partial \lambda_0}{\partial \lambda_i}=\frac{\int_{-\infty}^{\infty}g_i(x)e^{\sum_{i=1}^m {\lambda_ig_i(x)}}dx}{\int_{-\infty}^{\infty}e^{\sum_{i=1}^m {\lambda_ig_i(x)}}dx}$