最大熵原则
当根据不完整的信息作为依据进行推断时,应该由满足分布限制条件的具有最大熵的概率分布推得。
最大熵问题是一个约束最优化问题。要说明解这个问题的步骤,考虑最大微分熵:
h(X)=−∫+∞−∞px(x)logpx(x)dx
h
(
X
)
=
−
∫
−
∞
+
∞
p
x
(
x
)
log
p
x
(
x
)
d
x
对所有随机变量X的概率密度函数 px(x) p x ( x ) ,满足以下约束条件:
1. px(x)≥0 p x ( x ) ≥ 0 ,在 x x 的支持集之外等式成立;
2. ;
3. ∫+∞−∞px(x)gi(x)dx=ai,对i=1,2,...,m ∫ − ∞ + ∞ p x ( x ) g i ( x ) d x = a i , 对 i = 1 , 2 , . . . , m ;
其中 gi(x) g i ( x ) 是x的一部分函数,约束1和约束2描述概率密度函数的基本属性,约束3定义变量X的矩,它随 gi(x) g i ( x ) 的表达式不同而发生变化。
px(x)=exp(−1+λ0+∑i=1mλigi(x))(式1)
(式1)
p
x
(
x
)
=
e
x
p
(
−
1
+
λ
0
+
∑
i
=
1
m
λ
i
g
i
(
x
)
)
式1定义了最大熵问题的最大熵分布,其解法如下:
首先形成拉格朗日函数:
∫+∞−∞[−px(x)logpx(x)+λ0+∑i=1mλigi(x)px(x)dx](式2)
(式2)
∫
−
∞
+
∞
[
−
p
x
(
x
)
log
p
x
(
x
)
+
λ
0
+
∑
i
=
1
m
λ
i
g
i
(
x
)
p
x
(
x
)
d
x
]
其中 λ0,λi,....,λi λ 0 , λ i , . . . . , λ i 是拉格朗日乘子,对式2的被积函数求 px(x) p x ( x ) 的微分,并使其为0,得到
−1−logpx(x)+λ0+∑i=1mλigi(x)=0
−
1
−
log
p
x
(
x
)
+
λ
0
+
∑
i
=
1
m
λ
i
g
i
(
x
)
=
0
解此方程得到式1。
一维高斯分布
假设用先验知识为随机变量X的均值
μ
μ
和方差
σ2
σ
2
,根据定义随机变量X的方差由下式给出:
∫+∞−∞(x−μ)2px(x)dx=σ2=常数
∫
−
∞
+
∞
(
x
−
μ
)
2
p
x
(
x
)
d
x
=
σ
2
=
常
数
将此式与约束条件3作比较,看出
g1(x)=(x−μ)2
g
1
(
x
)
=
(
x
−
μ
)
2
和
a1=σ2
a
1
=
σ
2
所有带入式1可得:
px(x)=exp[−1+λ0+λ1(x−μ)2]
p
x
(
x
)
=
e
x
p
[
−
1
+
λ
0
+
λ
1
(
x
−
μ
)
2
]
将此等式带入约束条件2和3,解出 σ0和σi σ 0 和 σ i 得到:
λ0=1−log(2πσ2)
λ
0
=
1
−
log
(
2
π
σ
2
)
和
λ1=−12σ2
λ
1
=
−
1
2
σ
2
所以得到的 px(x) p x ( x ) 的分布形式为:
px(x)=12πμ−−−√exp(−(x−μ)22σ2)
p
x
(
x
)
=
1
2
π
μ
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
这样的随机变量的微分方程最大值为:
h(X)=12[1+log(2πσ2)]
h
(
X
)
=
1
2
[
1
+
l
o
g
(
2
π
σ
2
)
]
多维高斯分布
建立计算多维高斯分布的微分熵的计算公式,由于高斯分布的熵与随机变量X的均值无关,为简化讨论,仅讨论具有均值为0的随机变量X。这样二阶统计性质由其协方差矩阵
∑
∑
决定,它为X同自身的外积的期望所定义,这样X的联合密度函数由:
px(x)=1(2π)m/2(det(Σ))1/2exp(−12XTΣ−1X)
p
x
(
x
)
=
1
(
2
π
)
m
/
2
(
d
e
t
(
Σ
)
)
1
/
2
e
x
p
(
−
1
2
X
T
Σ
−
1
X
)
根据X微分熵的定义。得到:
h(X)=12[m+mlog(2π)+log|det(Σ)|]
h
(
X
)
=
1
2
[
m
+
m
log
(
2
π
)
+
log
|
d
e
t
(
Σ
)
|
]