最大熵方法求概率密度函数
信息熵,不确定度的描述,熵增加,不确定度增加,熵减小,不确定度减小。
- 离散型随机变量的信息熵
考虑一个一维的离散的随机变量X(此处不考虑扩展到多维的情况),可以取离散的值,对应的概率分别为则离散型随机变量的信息熵为:
- 连续型随机变量的信息熵
考虑一个一维的连续型的随机变量X,若它的概率密度分布函数为f(x),那X在(a,b)之间的信息熵为:
假设某个公司内部对所有员工进行了一次英语测试,测试结果分5个档次,分别为1分,2分,3分,4分,5分,假设已经知道平均分3.3分,每一个档次的概率分别为,可以看出概率分布是不确定的
能满足上面式子的解有无限多个,要确定一组我们认为最合理,最好的解,就需要利用最大熵原则
要求出最大熵就先要写出最大熵的表达式:
要最大化上面的熵表达式,同时要满足因此可以用拉格朗日乘子发求条件极值,得到下面的拉格朗日乘子式
分别对 进行求导,并让求导后的为0,求解出和,得到如下等式
可以求解出的表达式如下:
接着把的解析式代入:得到如下等式
可以看出,对取值离散的随机过程,最大熵意味着取平均概率,也就是说当取值概率相等的时候,熵最大化,下面看连续变量的情况
我们从离散情况过度到连续情况,有如下等式
是平均值,它是一个常量,是对应随机变量取值x的时候的值,同样,需要先写出熵信息的等式,然后在约束条件下求出熵信息最大化的参数值
对L(x)求f(x)的偏导,得到下式:
得到f(x) 的解析式:
只要求出就可以得到f(x)的解析表达式,剩下的工作就是估计这些未知的参数了。
从上面的分析可以看出,我们只要在最大熵的条件下,加上约束条件,就可能得到不同的概率分布解析式,下面我们加上均值和方差为常量的约束,看看可以得到什么样的解析式,约束条件如下:
根据前面我们求出来的最大熵条件下连续变量概率密度表达式可以得到约束条件下的解析表达式如下:
整理其形式,得到如下形式
其中,C是修整以后代替的待定系数,并做如下替换
加上约束条件:,可以得到下式:
这里用到了一个概率积分的结果,这里不讨论这个结果的证明,搜索概率积分有很多次结论的文章,利用这个结论可以得到下式结果:
把平均值条件考虑进来,有下式:
做一个整理,有下式:
因为有约束: ,因此得到
因为yf(y)为奇函数,因此其积分应为0,因此有: ,因此有因此可以得到下面的结果
在利用方差约束:,和自然对数函数积分公式,得到如下结果:
令,整理得到:
根据洛比达法则,计算极限:,所以有下面的式子
我们重点看里面这块的积分
整理得到下面结论:
现在得到了,代入得到下式:
这就是我们熟悉的正态分布的形式。
从上面可以看到,在给定约束条件下,基于最大熵原理可以得到某种概率分布函数,给定常量的均值和方差,可以得出正态分布,这个思路指明了不同的约束会导致不同的概率分布结果。其他的约束不再讨论了。重点是在用这个原理可以求概率分布,我们可以看到概率分布已经是指数形式了,所以只是求其中的系数问题,可以通过学习的方法从样本中得到。
我们来看看其中的参数怎么求?
这里会用到上面的结论,约束条件和连续概率密度函数表达式:
为了方便起见,这里做一个替换得到下面结论:
将概率密度表达式代入概率积分为1的条件可以得到下面结果:
对求偏导,得到下式:
整理得到
对求偏导数
于是得到
可以看出这是含有的m个方程组。如果从样本去估计他们的真实参数值会有一点的偏差,因此可以做如下变化:
实际的计算中,只可能是近似等于1,那么其中的误差部分就是:
我们希望这样的误差要满足均方误差最小,即下式:
规划求解可以得出答案