-###似然函数到高斯分布
为了得到精确值,我们需要进行多次测量,测量值大部分对称分布在真实值两侧附近。设测量期望为
θ
,误差为
ei=xi−θ
,期望为0,误差分布满足什么规律呢?假设该分布的最大似然估计就是平均值、期望,根据实验仪器知道一个大概的方差
σ
,那么
θ=argmaxLθ[f(e,θ)]
,求导得到
∑f′(xi−θ)f(xi−θ)=∑f′(e)f(e)=0
,同时
∑xi=θ
,满足这一条件的式子为
f′(ei)f(ei)=ce
,求解得到
f(x)=Aecx2=Aec(x−θ)2
,因此测量误差满足正太分布。这说明,高斯分布是似然函数最大时的最佳分布,不过这个推导令人疑惑的地方在于似然函数是
ln
,自然会推导出科学常数,如果是用其他函数形式来表示似然函数,是不是就推导出别的分布而不是正态分布呢?我认为是可能的,不过似然函数用
ln
是有其道理的,具体我暂时不明白。
上述推论并不能推出为什么高斯分布在现实世界如此普通如此重要。要证明高斯分布的普遍性,需要借助最大熵原理。
熵
熵:定义信息量函数I(x),满足:
*
I(x)=inf,p(x)=0
*
I(x)=0,p(x)=1
*
p(x)>p(y),I(x)<I(y)
*
p(x)>=0,I(x)>=0
* x,y~iid,
p(x,y)=p(x)p(y),I(x,y)=I(x)+I(y)
满足上面的最简单的概率分布为 I(x)=−clnp(x) ,对其求期望有 F(x)=∑cp(xi)lnp(xi) ,不要c即为熵 H(x)=∑p(xi)lnp(xi) ,表示系统信息量的多少。
最大熵与均匀分布
系统总是往熵最大的方向运动。均匀分布下有最大熵。证明:
1、熵函数是凸函数
δH(x)=lnx+1,H″(x)=1/x,x>0
。
2、jensen不等式:
E[f(X)]≥f(EX)
。当
∑p(xi)=1
时,有
−∑p(xi)lnp(xi)=∑p(xi)ln1/p(xi)≤ln∑[p(xi)/p(xi)]=lnk
,当p(x)全部相等时等号成立。
这说明未知系统处于均匀分布下是最稳定的状态。
最大熵到高斯分布
如果我们已知系统的均值
μ
和不为0的方差
σ
,那么熵最大的分布是什么呢?这时候肯定不是均匀分布,因为有不为0的方差,那肯定是有起伏的而不是平坦的。假设这个系统是一个连续概率分布
f(x)
,并且均值为
μ
,不为0的方差
σ
,其最大熵模型为:
我们的目标是求解上述模型在最值下 f(x) 的形式,并且我们可以预先确定这个模型有最大值。针对这个最优化模型,我们引入拉格朗日乘子法,有三个乘子 α,β,γ ,得到最优化模型为:
C为与 μ,σ 相关的常数,与最优化求解过程无关,故而可以无视。S是一个关于 f(x),x 的泛函,求解泛函极值的工具自然是欧拉拉格朗日EL方程,其通用形式为:
由(3)得到,
由(4)得到,
综上得到已知 μ,σ 的情况下,最大熵的概率分布为
即此时的正态分布最稳定,所以正态分布是一种常见的分布。