背景
本文为研究生课程里面的一个作业,题目自选,最后老师也没有让我们提交,所以传上来给大家参考、相互学习,如有疑问请联系850051568@qq.com
题目
已知某随机分布满足的约束条件如下式:
s
.
t
.
{
x
≥
0
E
(
x
)
=
1
μ
s.t.\left\{ \begin{aligned} x &\ge 0 \\ E(x)&=\frac{1}{\mu} \end{aligned} \right.
s.t.⎩⎪⎨⎪⎧xE(x)≥0=μ1
求使得熵最大的概率分布。
问题分析
本题要求依据所测量得到的数据及由其构成的约束条件下,按最不确定性,即使熵最大化的原则求取概率分布。求解思路为:根据最大熵发求解概率分布的数学模型采用拉格朗日(Lagrange)乘子法来解析求解,根据KKT条件,可得最优解。
理论介绍
信息熵的物理含义为某一信号不确定性的度量,数学公式为: I ( x i ) = − log p ( x i ) I(x_i)=-\log p(x_i) I(xi)=−logp(xi).连续随机变量X的熵的物理含义是:某个信源的总体平均不确定性的度,数学公式为: H ( X ) = − ∫ R p ( x ) log p ( x ) d x H(X)=-\int_R p(x)\log p(x)dx H(X)=−∫Rp(x)logp(x)dx.
最大熵发求解概率分布的数学模型为:
max
(
−
∫
S
p
(
x
)
log
p
(
x
)
d
x
∣
s.t
{
−
p
(
x
)
≤
0
∫
S
p
(
x
)
=
1
∫
S
p
(
x
)
f
i
(
x
)
d
x
=
a
i
,
(
i
=
1
,
2
,
3
,
…
,
n
)
)
\max \left(-\int_{S} p(x) \log p(x) d x \mid \text { s.t }\left\{\begin{aligned} -p(x) &\leq 0 \\ \int_{S} p(x)&=1 \\ \int_{S} p(x) f_{i}(x) d x&=a_{i},(i=1,2,3, \ldots, n) \end{aligned}\right)\right.
max⎝⎜⎜⎜⎜⎜⎛−∫Sp(x)logp(x)dx∣ s.t ⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧−p(x)∫Sp(x)∫Sp(x)fi(x)dx≤0=1=ai,(i=1,2,3,…,n)⎠⎟⎟⎟⎟⎟⎞
代入拉格朗日(Lagrange)乘子法方程,可得式:
L
(
p
,
λ
)
=
∫
S
p
log
p
d
x
−
μ
−
1
p
+
μ
0
(
∫
S
p
d
x
−
1
)
+
∑
j
=
1
n
λ
j
(
∫
S
p
f
j
d
x
−
a
j
)
.
L(p, \lambda)=\int_{S} p \log p d x-\mu_{-1} p+\mu_{0}\left(\int_{S} p d x-1\right)+\sum_{j=1}^{n} \lambda_{j}\left(\int_{S} p f_{j} d x-a_{j}\right).
L(p,λ)=∫Splogpdx−μ−1p+μ0(∫Spdx−1)+j=1∑nλj(∫Spfjdx−aj).
根据KKT条件对上式求导=0,可得最优解
∂
L
∂
p
=
ln
p
+
1
−
μ
−
1
+
μ
0
+
∑
j
=
1
n
λ
j
f
j
=
0
\frac{\partial L}{\partial p}=\ln p+1-\mu_{-1}+\mu_{0}+\sum_{j=1}^{n} \lambda_{j} f_{j}=0
∂p∂L=lnp+1−μ−1+μ0+j=1∑nλjfj=0
进而得:
p
=
e
−
1
+
μ
−
1
−
μ
0
−
∑
j
=
1
n
λ
j
f
j
=
C
∗
e
−
∑
j
=
1
n
λ
j
∗
f
j
(
x
)
=
C
∗
e
−
λ
1
∗
f
1
(
x
)
−
λ
2
f
2
(
x
)
−
…
=
p
∗
\begin{aligned} p&=e^{-1+\mu_{-1}-\mu_{0}-\sum_{j=1}^{n} \lambda_{j} f_{j}}\\ &=C^* e^{-\sum_{j=1}^{n} \lambda_{j}^{*} f_{j}(x)}\\ &=C^* e^{-\lambda_{1}^* f_1(x)-\lambda_{2}f_2(x)-\dots}\\ &=p^* \end{aligned}
p=e−1+μ−1−μ0−∑j=1nλjfj=C∗e−∑j=1nλj∗fj(x)=C∗e−λ1∗f1(x)−λ2f2(x)−…=p∗
题目求解
由最优解标准式和已知约束,可知满足最大熵概率形式为:
p
(
x
)
=
c
e
−
λ
1
f
1
(
x
)
−
λ
2
f
2
(
x
)
−
…
s.t.
{
x
≥
0
E
(
x
)
=
1
μ
⇒
f
1
(
x
)
=
x
f
2
(
x
)
=
x
}
⇒
p
(
x
)
=
{
c
e
−
(
λ
1
+
λ
2
)
x
,
x
≥
0
0
,
o
t
h
e
r
s
\left.\begin{array}{l} p(x)=c e^{-\lambda_{1} f_{1}(x)-\lambda_{2} f_{2}(x)-\ldots} \\ \text { s.t. } \left\{\begin{aligned} x &\ge 0 \\ E(x)&=\frac{1}{\mu} \end{aligned} \Rightarrow \begin{aligned} f_{1}(x)&=x \\ f_{2}(x)&=x \end{aligned}\right. \end{array}\right\} \Rightarrow p(x)=\left\{\begin{aligned} c e^{-(\lambda_{1}+\lambda_{2}) x}&,x \ge 0\\ 0&,others \end{aligned}\right.
p(x)=ce−λ1f1(x)−λ2f2(x)−… s.t. ⎩⎪⎨⎪⎧xE(x)≥0=μ1⇒f1(x)f2(x)=x=x⎭⎪⎪⎪⎬⎪⎪⎪⎫⇒p(x)={ce−(λ1+λ2)x0,x≥0,others
根据概率满足的固有条件和题目所给条件:
{
∫
0
+
∞
p
(
x
)
d
x
=
1
∫
0
+
∞
x
p
(
x
)
d
x
=
1
μ
\left\{\begin{aligned} \int _0^{+\infty}p(x)dx&=1\\ \int _0^{+\infty}xp(x)dx&=\frac{1}{\mu} \end{aligned}\right.
⎩⎪⎪⎪⎨⎪⎪⎪⎧∫0+∞p(x)dx∫0+∞xp(x)dx=1=μ1
上述2式联立,得:
{
c
∫
0
+
∞
e
−
(
λ
1
+
λ
2
)
x
d
x
=
1
c
∫
0
+
∞
x
e
−
(
λ
1
+
λ
2
)
x
d
x
=
1
μ
\left\{\begin{aligned} c\int _0^{+\infty}e^{-(\lambda_{1}+\lambda_{2}) x}dx&=1\\ c\int _0^{+\infty}xe^{-(\lambda_{1}+\lambda_{2}) x}dx&=\frac{1}{\mu} \end{aligned}\right.
⎩⎪⎪⎪⎨⎪⎪⎪⎧c∫0+∞e−(λ1+λ2)xdxc∫0+∞xe−(λ1+λ2)xdx=1=μ1
将
λ
1
\lambda_{1}
λ1+
λ
2
\lambda_{2}
λ2视为一个整体,
c
c
c为未知量,
μ
\mu
μ为已知量,2个方程接2个未知量,解得:
{
c
=
μ
λ
1
+
λ
2
=
μ
\left\{\begin{aligned} c&=\mu\\ \lambda_{1}+\lambda_{2}&=\mu \end{aligned}\right.
{cλ1+λ2=μ=μ
综上,可得求得的熵最大概率分布为:
p
(
x
)
=
{
μ
e
−
μ
x
,
x
≥
0
0
,
o
t
h
e
r
s
p(x)=\left\{\begin{aligned} \mu e^{-\mu x},x \ge 0\\ 0,others \end{aligned}\right.
p(x)={μe−μx,x≥00,others,是一个系数为
μ
\mu
μ的指数分布。
总结
- 输出信号自变量非负时,输出信号的概率密度函数是指数分布时熵最大。
- 用拉格朗日乘子法求解有约束的最小化数学模型时,约束、表达式、变量(待求变量)是三要素,缺一不可。
- (自)信息量用于反映信号的不确定性,当前信号存在的概率越低,其不确定性就越高,所以对应的信息熵就越大。信息量越大,表示先验不确定性和后验不确定性的差值越大。