熵
熵(entropy)是热力学中的概念,由香浓引入到信息论中。在信息论和概率统计中,熵用来表示随机变量不确定性的度量。
设
X
∈
{
x
1
,
x
2
,
.
.
.
,
x
n
}
X\in\{x_1,x_2,...,x_n\}
X∈{x1,x2,...,xn}为一个离散随机变量,其概率分布为
p
(
X
=
x
i
)
=
p
i
,
i
=
1
,
2
,
.
.
.
,
n
p(X=x_i)=p_i, i=1,2,...,n
p(X=xi)=pi,i=1,2,...,n,则
X
X
X的熵为
H
(
X
)
=
−
∑
i
=
1
n
p
i
log
p
i
,
当
p
i
=
0
时
,
定
义
0
log
0
=
0
H(X)=-\sum_{i=1}^np_i\log{p_i}, 当p_i=0时,定义0\log0=0
H(X)=−i=1∑npilogpi,当pi=0时,定义0log0=0
H
(
X
)
H(X)
H(X)越大,表示
X
X
X不确定性越大。
条件熵
设
X
∈
{
x
1
,
x
2
,
.
.
.
,
x
n
}
X\in\{x_1,x_2,...,x_n\}
X∈{x1,x2,...,xn},
Y
∈
{
y
1
,
y
2
,
.
.
.
,
x
m
}
Y\in\{y_1,y_2,...,x_m\}
Y∈{y1,y2,...,xm}为离线随机变量,在已知
X
X
X的条件下,
Y
Y
Y的条件熵(conditional entropy)定义为:
H
(
Y
∣
X
)
=
∑
i
=
1
n
p
(
x
i
)
H
(
Y
∣
X
=
x
i
)
=
−
∑
i
=
1
n
p
(
x
i
)
∑
j
=
1
m
p
(
y
j
∣
x
i
)
log
p
(
y
j
∣
x
i
)
H(Y|X)=\sum_{i=1}^np(x_i)H(Y|X=x_i)=-\sum_{i=1}^np(x_i)\sum_{j=1}^mp(y_j|x_i)\log{p(y_j|x_i)}
H(Y∣X)=i=1∑np(xi)H(Y∣X=xi)=−i=1∑np(xi)j=1∑mp(yj∣xi)logp(yj∣xi)
表示已知
X
X
X的条件下,
Y
Y
Y的条件概率分布的熵对
X
X
X的数学期望。
最大熵模型
假设分类模型是一个条件概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X),
X
X
X表示输入,
Y
Y
Y表示输出。这个模型表示的是对于给定的输入
X
X
X,以条件概率
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)输出
Y
Y
Y。
给定一个训练数据集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
N
,
y
N
)
}
T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
T={(x1,y1),(x2,y2),...,(xN,yN)},我们的目标就是利用最大熵原理选择最好的分类模型。最大熵模型包含两部分:熵和约束条件。关于约束,从训练数据T中抽取若干特征,然后要求这些特征在训练集
T
T
T上关于经验分布的期望与它们在模型中关于
p
(
x
,
y
)
p(x,y)
p(x,y)的数学期望相等,这样,一个特征就对应一个约束。
经验分布
经验分布是指通过训练数据T上进行统计得到的分布。我们需要考察两个经验分布,分别是
x
,
y
x,y
x,y的联合经验分布以及
x
x
x的分布。其定义如下:
p
~
(
x
)
=
c
o
u
n
t
(
x
)
N
,
p
~
(
x
,
y
)
=
c
o
u
n
t
(
x
,
y
)
N
\tilde{p}(x)=\frac{count(x)}{N}, \tilde{p}(x,y)=\frac{count(x,y)}{N}
p~(x)=Ncount(x),p~(x,y)=Ncount(x,y)
约束条件
对于任意的特征函数
f
f
f,记
E
p
~
(
f
)
E_{\tilde{p}}(f)
Ep~(f) 表示f在训练数据T上关于
p
(
x
,
y
)
p(x,y)
p(x,y)的数学期望。
E
p
(
f
)
E_p(f)
Ep(f) 表示f在模型上关于p(x,y)的数学期望。按照期望的定义,有:
E
p
~
(
f
)
=
∑
x
,
y
p
~
(
x
,
y
)
f
(
x
,
y
)
E
p
(
f
)
=
∑
x
,
y
p
(
x
,
y
)
f
(
x
,
y
)
E_{\tilde{p}}(f)=\sum_{x,y}\tilde{p}(x,y)f(x,y)\\ E_{p}(f)=\sum_{x,y}p(x,y)f(x,y)
Ep~(f)=x,y∑p~(x,y)f(x,y)Ep(f)=x,y∑p(x,y)f(x,y)
我们需要注意的是
p
(
x
,
y
)
p(x,y)
p(x,y)是未知的。并且我们建模的目标是
p
(
y
∣
x
)
p(y|x)
p(y∣x),因此我们利用Bayes定理得到
p
(
x
,
y
)
=
p
(
x
)
p
(
y
∣
x
)
p(x,y)=p(x)p(y|x)
p(x,y)=p(x)p(y∣x)。
此时,
p
(
x
)
p(x)
p(x)也还是未知,我们可以使用经验分布得到
p
~
(
x
)
\tilde{p}(x)
p~(x)对
p
(
x
)
p(x)
p(x)进行近似。
E
p
(
f
)
=
∑
x
,
y
p
~
(
x
)
p
(
y
∣
x
)
f
(
x
,
y
)
E_{p}(f)=\sum_{x,y}\tilde{p}(x)p(y|x)f(x,y)
Ep(f)=x,y∑p~(x)p(y∣x)f(x,y)
对于概率分布
p
(
y
∣
x
)
p(y|x)
p(y∣x),我们希望特征
f
f
f的期望应该和从训练数据中得到的特征期望是一样的。因此,可以提出约束:
E
p
(
f
)
=
E
p
~
(
f
)
∑
x
,
y
p
~
(
x
)
p
(
y
∣
x
)
f
(
x
,
y
)
=
∑
x
,
y
p
~
(
x
,
y
)
f
(
x
,
y
)
E_{{p}}(f)=E_{\tilde{p}}(f)\\ \sum_{x,y}\tilde{p}(x)p(y|x)f(x,y)=\sum_{x,y}\tilde{p}(x,y)f(x,y)
Ep(f)=Ep~(f)x,y∑p~(x)p(y∣x)f(x,y)=x,y∑p~(x,y)f(x,y)
假设从训练数据抽取了n个特征,则有n个特征函数和n个约束条件
C
i
:
E
p
(
f
i
)
=
E
p
~
(
f
i
)
=
τ
i
C_i: E_p(f_i)=E_{\tilde{p}}(f_i)=\tau_i
Ci:Ep(fi)=Ep~(fi)=τi
最大熵模型
已知特征函数和约束条件,我们将熵的概念应用到条件分布上面去。
H
(
p
(
y
∣
x
)
)
=
−
∑
x
,
y
p
~
(
x
)
p
(
y
∣
x
)
log
p
(
y
∣
x
)
H(p(y|x))=-\sum_{x,y}\tilde{p}(x)p(y|x)\log{p(y|x)}
H(p(y∣x))=−x,y∑p~(x)p(y∣x)logp(y∣x)
至此,我们可以给出最大熵模型的完整描述:
对于给定的数据集
T
T
T,特征函数
f
i
(
x
,
y
)
,
i
=
1
,
…
,
n
f_i(x,y), i=1,…,n
fi(x,y),i=1,…,n,最大熵模型就是求解模型集合C中条件熵最大的模型。
m
i
n
p
∈
C
−
H
(
p
)
=
∑
x
,
y
p
~
(
x
)
p
(
y
∣
x
)
log
p
(
y
∣
x
)
s
.
t
.
∑
x
,
y
p
~
(
x
)
p
(
y
∣
x
)
f
i
(
x
,
y
)
=
τ
i
∑
y
p
(
y
∣
x
)
=
1
min_{p\in C}-H(p)=\sum_{x,y}\tilde{p}(x)p(y|x)\log{p(y|x)}\\ s.t. \sum_{x,y}\tilde{p}(x)p(y|x)f_i(x,y)=\tau_i\\ \sum_yp(y|x)=1
minp∈C−H(p)=x,y∑p~(x)p(y∣x)logp(y∣x)s.t.x,y∑p~(x)p(y∣x)fi(x,y)=τiy∑p(y∣x)=1
求解最大熵模型
最大熵模型的学习过程就是求解最大熵模型的过程。求解约束最优化问题所得的解就是最大熵模型学习的解。
利用拉格朗日乘子法将最大熵模型由一个带约束的最优化问题转化为一个与之等价的无约束的最优化问题,它是一个min max问题。
利用拉格朗日对偶问题的等价性,将原始问题转换为一个max min问题。即:
m
i
n
p
∈
C
m
a
x
λ
L
(
p
,
λ
)
=
>
m
a
x
λ
m
i
n
p
∈
C
L
(
p
,
λ
)
min_{p\in{C}}max_\lambda L(p,\lambda) => max_{\lambda}min_{p\in C}L(p,\lambda)
minp∈CmaxλL(p,λ)=>maxλminp∈CL(p,λ)
极小值问题求解
Ψ
(
λ
)
=
m
i
n
p
∈
C
L
(
p
,
λ
)
=
L
(
p
λ
,
λ
)
p
λ
=
a
r
g
m
i
n
p
∈
C
L
(
p
,
λ
)
\Psi(\lambda)=min_{p\in C}L(p,\lambda)=L(p_{\lambda,\lambda})\\ p_{\lambda}=argmin_{p\in C}L(p,\lambda)
Ψ(λ)=minp∈CL(p,λ)=L(pλ,λ)pλ=argminp∈CL(p,λ)
组合拉格朗日函数
L
(
p
,
λ
)
=
−
H
(
p
)
+
λ
0
(
1
−
∑
x
,
y
p
(
y
∣
x
)
)
p
~
(
x
)
)
+
∑
i
=
1
n
λ
i
(
E
p
~
(
f
i
)
−
E
p
(
f
i
)
)
=
∑
x
,
y
P
~
(
x
)
P
(
y
∣
x
)
log
P
(
y
∣
x
)
+
λ
0
(
1
−
∑
x
,
y
P
(
y
∣
x
)
P
~
(
x
)
)
+
∑
i
=
1
n
λ
i
(
∑
x
,
y
P
~
(
x
,
y
)
f
i
(
x
,
y
)
−
∑
x
,
y
P
~
(
x
)
p
(
y
∣
x
)
f
i
(
x
,
y
)
)
L(p,\lambda)=-H(p)+\lambda_{0}(1-\sum_{x,y}p(y|x))\tilde p(x))+\sum_{i=1}^n\lambda_i(E_{\tilde p}(f_i)-E_p(f_i))\\ =\sum_{x,y}\tilde P(x)P(y|x)\log{P(y|x)}+\lambda_0(1-\sum_{x,y}P(y|x)\tilde P(x))+\sum_{i=1}^n\lambda_i(\sum_{x,y}\tilde P(x,y)f_i(x,y)-\sum_{x,y}\tilde P(x)p(y|x)f_i(x,y))
L(p,λ)=−H(p)+λ0(1−x,y∑p(y∣x))p~(x))+i=1∑nλi(Ep~(fi)−Ep(fi))=x,y∑P~(x)P(y∣x)logP(y∣x)+λ0(1−x,y∑P(y∣x)P~(x))+i=1∑nλi(x,y∑P~(x,y)fi(x,y)−x,y∑P~(x)p(y∣x)fi(x,y))
L
(
p
,
λ
)
L(p,\lambda)
L(p,λ)关于
P
(
y
∣
x
)
P(y|x)
P(y∣x)的偏导
∂
L
∂
P
(
y
∣
x
)
=
P
~
(
x
)
(
log
P
(
y
∣
x
)
+
1
)
−
λ
0
P
~
(
x
)
−
P
~
(
x
)
∑
i
=
1
n
λ
i
f
i
(
x
,
y
)
=
P
~
(
x
)
(
log
P
(
y
∣
x
)
+
1
−
λ
0
−
∑
i
=
1
n
λ
i
f
i
(
x
,
y
)
)
\frac{\partial{L}}{\partial{P(y|x)}}=\tilde P(x)(\log{P(y|x)}+1)-\lambda_0\tilde{P}(x)-\tilde{P}(x)\sum_{i=1}^n\lambda_if_i(x,y)\\ =\tilde{P}(x)(\log{P(y|x)}+1-\lambda_0-\sum_{i=1}^n\lambda_if_i(x,y))
∂P(y∣x)∂L=P~(x)(logP(y∣x)+1)−λ0P~(x)−P~(x)i=1∑nλifi(x,y)=P~(x)(logP(y∣x)+1−λ0−i=1∑nλifi(x,y))
令上式等于0,由
P
~
(
x
)
>
0
\tilde{P}(x)>0
P~(x)>0,得
log
P
(
y
∣
x
)
+
1
−
λ
0
−
∑
i
=
1
n
λ
i
f
i
(
x
,
y
)
=
0
\log{P(y|x)}+1-\lambda_0-\sum_{i=1}^n\lambda_if_i(x,y)=0
logP(y∣x)+1−λ0−i=1∑nλifi(x,y)=0
解得,
P
(
y
∣
x
)
=
exp
(
∑
i
=
1
n
λ
i
f
i
(
x
,
y
)
)
exp
1
−
λ
0
P(y|x)=\frac{\exp^{(\sum_{i=1}^n\lambda_if_i(x,y))}}{\exp^{1-\lambda_0}}
P(y∣x)=exp1−λ0exp(∑i=1nλifi(x,y))
由
∑
y
(
P
(
y
∣
x
)
)
=
1
\sum_y(P(y|x))=1
∑y(P(y∣x))=1得
∑
y
P
(
y
∣
x
)
=
∑
y
exp
(
∑
x
=
1
n
λ
i
f
i
(
x
,
y
)
)
exp
(
1
−
λ
0
)
=
1
exp
(
1
−
λ
0
)
=
∑
y
exp
(
∑
x
=
1
n
λ
i
f
i
(
x
,
y
)
)
\sum_yP(y|x)=\frac{\sum_y\exp(\sum_{x=1}^{n}\lambda_if_i(x,y))}{\exp(1-\lambda_0)}=1\\ \exp(1-\lambda_0)=\sum_y\exp(\sum_{x=1}^{n}\lambda_if_i(x,y))
y∑P(y∣x)=exp(1−λ0)∑yexp(∑x=1nλifi(x,y))=1exp(1−λ0)=y∑exp(x=1∑nλifi(x,y))
得
P
(
y
∣
x
)
=
exp
(
∑
i
=
1
n
λ
i
f
i
(
x
,
y
)
)
∑
y
exp
(
∑
i
=
1
n
λ
i
f
i
(
x
,
y
)
)
P(y|x)=\frac{\exp(\sum_{i=1}^{n}\lambda_if_i(x,y))}{\sum_y\exp(\sum_{i=1}^{n}\lambda_if_i(x,y))}
P(y∣x)=∑yexp(∑i=1nλifi(x,y))exp(∑i=1nλifi(x,y))
极大值问题求解
得到内部极小问题的
p
p
p后,进一步求解外层的极大值问题:
m
a
x
λ
Ψ
(
λ
)
max_{\lambda}\Psi(\lambda)
maxλΨ(λ)
λ
∗
=
a
r
g
m
a
x
λ
Ψ
(
λ
)
(
x
)
\lambda^*=argmax_{\lambda}\Psi(\lambda)(x)
λ∗=argmaxλΨ(λ)(x)
将
log
p
λ
(
y
∣
x
)
=
∑
i
=
1
n
λ
i
f
i
(
x
,
y
)
−
log
Z
λ
\log{p_{\lambda}(y|x)}=\sum_{i=1}^n\lambda_if_i(x,y)-\log{Z_{\lambda}}
logpλ(y∣x)=∑i=1nλifi(x,y)−logZλ带入求解
Ψ
(
λ
)
=
L
(
p
λ
,
λ
)
=
∑
x
,
y
p
~
(
x
)
p
λ
(
y
∣
x
)
log
p
λ
(
y
∣
x
)
+
∑
i
=
1
n
λ
i
(
τ
i
−
∑
x
,
y
p
~
(
x
)
p
λ
(
y
∣
x
)
f
i
(
x
,
y
)
)
=
∑
i
=
1
n
λ
i
τ
i
+
∑
x
,
y
p
~
(
x
)
p
λ
(
y
∣
x
)
(
log
p
λ
(
y
∣
x
)
)
−
∑
i
=
1
n
λ
i
f
i
(
x
,
y
)
)
=
∑
i
=
1
n
λ
i
τ
i
−
∑
x
,
y
p
~
(
x
)
p
λ
(
y
∣
x
)
log
Z
λ
(
x
)
=
∑
i
=
1
n
λ
i
τ
i
−
∑
x
p
~
(
x
)
log
Z
λ
(
x
)
∑
y
p
λ
(
y
∣
x
)
=
∑
i
=
1
n
λ
i
τ
i
−
∑
x
p
~
(
x
)
log
Z
λ
(
x
)
\Psi(\lambda)=L(p_{\lambda,\lambda})\\ =\sum_{x,y}\tilde{p}(x)p_{\lambda}(y|x)\log{p_{\lambda}(y|x)}+\sum_{i=1}^n\lambda{_i}(\tau_i-\sum_{x,y}\tilde{p}(x)p_{\lambda}(y|x)f_i(x,y))\\ =\sum_{i=1}^n\lambda_i\tau_i+\sum_{x,y}\tilde{p}(x)p_{\lambda}(y|x)(\log{p_{\lambda}}(y|x))-\sum_{i=1}^n\lambda_if_i(x,y))\\ =\sum_{i=1}^n\lambda_i\tau_i-\sum_{x,y}\tilde{p}(x)p_{\lambda}(y|x)\log{Z_{\lambda}(x)}\\ =\sum_{i=1}^n\lambda_i\tau_i-\sum_{x}\tilde{p}(x)\log{Z_{\lambda}(x)}\sum_yp_{\lambda}(y|x)\\ =\sum_{i=1}^n\lambda_i\tau_i-\sum_x\tilde{p}(x)\log{Z_\lambda}(x)
Ψ(λ)=L(pλ,λ)=x,y∑p~(x)pλ(y∣x)logpλ(y∣x)+i=1∑nλi(τi−x,y∑p~(x)pλ(y∣x)fi(x,y))=i=1∑nλiτi+x,y∑p~(x)pλ(y∣x)(logpλ(y∣x))−i=1∑nλifi(x,y))=i=1∑nλiτi−x,y∑p~(x)pλ(y∣x)logZλ(x)=i=1∑nλiτi−x∑p~(x)logZλ(x)y∑pλ(y∣x)=i=1∑nλiτi−x∑p~(x)logZλ(x)
这里特征期望
τ
i
=
∑
x
,
y
p
~
(
x
,
y
)
f
i
(
x
,
y
)
\tau_i=\sum_{x,y}\tilde{p}(x,y)f_i(x,y)
τi=∑x,yp~(x,y)fi(x,y)对于给定的训练集为一个常数。
极大似然估计
下面证明一下在求得极小值后,极大值的求解就是
p
(
y
∣
x
)
p(y|x)
p(y∣x)的对数似然最大化。
似然函数
L
(
p
λ
)
=
∏
x
,
y
p
λ
(
y
∣
x
)
L(p_{\lambda})=\prod_{x,y}p_{\lambda}(y|x)
L(pλ)=x,y∏pλ(y∣x)
求解上式似然函数等价于求解
L
p
~
(
p
λ
(
y
∣
x
)
)
=
log
(
∏
x
,
y
p
λ
(
y
∣
x
)
p
~
(
x
,
y
)
)
=
∑
x
,
y
p
~
(
x
,
y
)
log
p
λ
(
y
∣
x
)
L_{\tilde{p}}(p_{\lambda}(y|x))=\log(\prod_{x,y}p_{\lambda}(y|x)^{\tilde{p}(x,y)})=\sum_{x,y}\tilde{p}(x,y)\log{p_{\lambda}(y|x)}
Lp~(pλ(y∣x))=log(x,y∏pλ(y∣x)p~(x,y))=x,y∑p~(x,y)logpλ(y∣x)
将
log
p
λ
(
y
∣
x
)
=
∑
i
=
1
n
λ
i
f
i
(
x
,
y
)
−
log
Z
λ
\log{p_{\lambda}(y|x)}=\sum_{i=1}^n\lambda_if_i(x,y)-\log{Z_{\lambda}}
logpλ(y∣x)=∑i=1nλifi(x,y)−logZλ带入求解
L
p
~
(
p
λ
(
y
∣
x
)
)
=
∑
x
,
y
p
~
(
x
,
y
)
(
∑
i
=
1
n
λ
i
f
i
(
x
,
y
)
−
log
Z
λ
(
x
)
)
=
∑
i
=
1
n
λ
i
∑
x
,
y
p
~
(
x
,
y
)
f
i
(
x
,
y
)
−
∑
x
,
y
p
~
(
x
,
y
)
log
Z
λ
(
x
)
=
∑
i
=
1
n
λ
i
τ
i
−
∑
x
p
~
(
x
)
log
Z
λ
(
x
)
L_{\tilde{p}}(p_{\lambda}(y|x))=\sum_{x,y}\tilde{p}(x,y)(\sum_{i=1}^n{\lambda_i}f_i(x,y)-\log{Z_{\lambda}(x)})\\ =\sum_{i=1}^n\lambda_i\sum_{x,y}\tilde{p}(x,y)f_i(x,y)-\sum_{x,y}\tilde{p}(x,y)\log{Z_{\lambda}(x)}\\ =\sum_{i=1}^n\lambda_i\tau_i-\sum_x\tilde{p}(x)\log{Z_\lambda(x)}
Lp~(pλ(y∣x))=x,y∑p~(x,y)(i=1∑nλifi(x,y)−logZλ(x))=i=1∑nλix,y∑p~(x,y)fi(x,y)−x,y∑p~(x,y)logZλ(x)=i=1∑nλiτi−x∑p~(x)logZλ(x)
与上面极大值问题求解式子一样,从最大熵的思想出发得出的最大熵模型,最后的最大化求解就是在求
P
(
y
∣
x
)
P(y|x)
P(y∣x)的对数似然最大化。逻辑回归也是在求条件概率分布关于样本数据的对数似然最大化。二者唯一的不同就是条件概率分布的表示形式不同。
最大熵模型与逻辑回归的关系
假设当前一个最大熵模型类别
y
y
y的取值只有两个
y
0
,
y
1
y_0,y_1
y0,y1,输入的
x
x
x有
n
n
n种取值,定义
n
n
n个特征函数:
f
i
(
x
,
y
)
=
{
x
i
,
if
y
=
y
1
0
,
else
f_i(x,y) = \begin{cases} x_i, & \text{if $y=y_1$} \\ 0, & \text{else} \end{cases}
fi(x,y)={xi,0,if y=y1else
则对于
y
1
y_1
y1
p
(
y
1
∣
x
)
=
exp
∑
i
=
1
n
w
i
x
i
1
+
exp
∑
i
=
1
n
w
i
x
i
p(y_1|x)=\frac{\exp{\sum_{i=1}^nw_ix_i}}{1+\exp{\sum_{i=1}^nw_ix_i}}
p(y1∣x)=1+exp∑i=1nwixiexp∑i=1nwixi
对于
y
0
y_0
y0
p
(
y
0
∣
x
)
=
1
1
+
exp
∑
i
=
1
n
w
i
x
i
p(y_0|x)=\frac{1}{1+\exp{\sum_{i=1}^nw_ix_i}}
p(y0∣x)=1+exp∑i=1nwixi1
这就是逻辑回归!
连续性最大熵模型的一些例子
我们将上述的条件最大熵模型简化为一般的最大熵模型,求解概率
p
(
x
)
p(x)
p(x),则最大熵模型为
L
(
p
(
x
)
,
λ
)
−
∫
p
(
x
)
log
p
(
x
)
d
x
−
λ
0
(
∫
p
(
x
)
d
x
−
1
)
−
λ
1
(
∫
p
(
x
)
f
1
(
x
)
d
x
−
τ
1
)
−
⋯
−
λ
k
(
∫
p
(
x
)
f
k
(
x
)
d
x
−
τ
k
)
L(p(x),\lambda)-\int p(x)\log{p(x)}dx-\lambda_0(\int p(x)dx-1)-\lambda_1(\int p(x)f_1(x)dx-\tau_1)-\cdots-\lambda_k(\int p(x)f_k(x)dx-\tau_k)
L(p(x),λ)−∫p(x)logp(x)dx−λ0(∫p(x)dx−1)−λ1(∫p(x)f1(x)dx−τ1)−⋯−λk(∫p(x)fk(x)dx−τk)
求解:
∂
L
(
p
(
x
)
,
λ
)
∂
p
(
x
)
=
[
log
p
(
x
)
+
1
]
+
λ
0
+
λ
1
f
1
(
x
)
+
λ
2
f
2
(
x
)
+
⋯
+
λ
k
f
k
(
x
)
=
0
\frac{\partial{L(p(x),\lambda)}}{\partial{p(x)}}=[\log{p(x)}+1]+\lambda_0+\lambda_1f_1(x)+\lambda_2f_2(x)+\cdots+\lambda_kf_k(x)=0
∂p(x)∂L(p(x),λ)=[logp(x)+1]+λ0+λ1f1(x)+λ2f2(x)+⋯+λkfk(x)=0
与上述离散的结果类似,利用
∫
p
(
x
)
d
x
=
1
\int{p(x)}dx=1
∫p(x)dx=1,解得:
p
(
x
)
=
1
Z
exp
(
−
∑
i
=
1
k
λ
i
f
i
(
x
)
)
Z
=
∫
exp
(
−
λ
i
f
i
(
x
)
)
d
x
p(x)=\frac{1}{Z}\exp({-\sum_{i=1}^k}\lambda_if_i(x))\\[2ex] Z=\int \exp(-\lambda_if_i(x))dx
p(x)=Z1exp(−i=1∑kλifi(x))Z=∫exp(−λifi(x))dx
需要将
p
(
x
)
p(x)
p(x)带入
∫
p
(
x
)
f
i
(
x
)
d
x
−
τ
i
=
0
,
i
=
1
,
2
,
…
,
k
\int p(x)f_i(x)dx-\tau_i=0, i=1,2,\dots,k
∫p(x)fi(x)dx−τi=0,i=1,2,…,k
求解各个参数
λ
i
\lambda_i
λi
指数分布
考虑只有一个约束条件
∫
p
(
x
)
x
=
τ
(
x
≥
0
)
\int{p(x)x}=\tau(x\geq0)
∫p(x)x=τ(x≥0),即均值为
τ
\tau
τ
p
(
x
)
=
1
Z
exp
(
−
λ
x
)
p(x)=\frac{1}{Z}\exp(-\lambda x)
p(x)=Z1exp(−λx)
归一化因子
Z
=
∫
0
∞
exp
(
−
λ
x
)
d
x
=
1
λ
Z=\int_0^\infty\exp(-\lambda x)dx=\cfrac{1}{\lambda}
Z=∫0∞exp(−λx)dx=λ1
根据约束条件求解:
τ
=
∫
0
∞
λ
exp
(
−
λ
x
)
x
d
x
=
1
λ
\tau=\int_0^\infty{\lambda\exp(-\lambda x)}xdx=\cfrac{1}{\lambda}
τ=∫0∞λexp(−λx)xdx=λ1
所以得到指数分布
p
(
x
)
=
1
τ
exp
(
−
x
τ
)
p(x)=\frac{1}{\tau}\exp(-\frac{x}{\tau})
p(x)=τ1exp(−τx)
正太分布
考虑两个约束条件
∫
p
(
x
)
x
=
τ
1
,
∫
p
(
x
)
x
2
=
τ
2
\int{p(x)x}=\tau_1, \int{p(x)x^2}=\tau_2
∫p(x)x=τ1,∫p(x)x2=τ2,即已知均值和方差,则
p
(
x
)
=
1
Z
exp
(
−
λ
1
x
−
λ
2
x
2
)
p(x)=\frac{1}{Z}\exp(-\lambda_1x-\lambda_2x^2)
p(x)=Z1exp(−λ1x−λ2x2)
归一化因子
∫
−
∞
∞
exp
(
−
λ
1
x
−
λ
2
x
2
)
d
x
=
∫
−
∞
∞
exp
[
−
λ
2
(
x
+
λ
1
2
λ
2
)
2
+
λ
1
2
4
λ
2
]
d
x
=
exp
(
λ
1
2
4
λ
2
)
∫
−
∞
∞
exp
(
−
λ
2
t
2
)
d
t
=
π
λ
2
exp
(
λ
1
2
4
λ
2
)
\begin{aligned} \int_{-\infty}^{\infty} \exp\left(-\lambda_1 x-\lambda_2 x^2\right) dx &= \int_{-\infty}^{\infty} \exp[-\lambda_2\left(x+\frac{\lambda_1}{2\lambda_2}\right)^2+\frac{\lambda_1^2}{4\lambda_2}]dx\\ &=\exp\left(\frac{\lambda_1^2}{4\lambda_2}\right) \int_{-\infty}^{\infty} \exp\left(-\lambda_2t^2\right)dt\\ &=\sqrt{\frac{\pi}{\lambda_2}}\exp\left(\frac{\lambda_1^2}{4\lambda_2}\right) \end{aligned}
∫−∞∞exp(−λ1x−λ2x2)dx=∫−∞∞exp[−λ2(x+2λ2λ1)2+4λ2λ12]dx=exp(4λ2λ12)∫−∞∞exp(−λ2t2)dt=λ2πexp(4λ2λ12)
概率密度函数
p
(
x
)
=
λ
2
π
exp
(
−
λ
1
2
4
λ
2
)
exp
(
−
λ
1
x
−
λ
2
x
2
)
p(x)=\sqrt{\frac{\lambda_2}{\pi}}\exp\left(-\frac{\lambda_1^2}{4\lambda_2}\right) \exp\left(-\lambda_1 x-\lambda_2 x^2\right)
p(x)=πλ2exp(−4λ2λ12)exp(−λ1x−λ2x2)
两个约束
τ
1
=
∫
−
∞
∞
λ
2
π
exp
(
−
λ
1
2
4
λ
2
)
exp
(
−
λ
1
x
−
λ
2
x
2
)
x
d
x
=
−
λ
1
2
λ
2
τ
2
=
∫
−
∞
∞
λ
2
π
exp
(
−
λ
1
2
4
λ
2
)
exp
(
−
λ
1
x
−
λ
2
x
2
)
x
2
d
x
=
λ
1
2
+
2
λ
2
4
λ
2
2
\begin{aligned}&\tau_1=\int_{-\infty}^{\infty} \sqrt{\frac{\lambda_2}{\pi}}\exp\left(-\frac{\lambda_1^2}{4\lambda_2}\right) \exp\left(-\lambda_1 x-\lambda_2 x^2\right) x dx =-\frac{\lambda_1}{2\lambda_2}\\ &\tau_2=\int_{-\infty}^{\infty} \sqrt{\frac{\lambda_2}{\pi}}\exp\left(-\frac{\lambda_1^2}{4\lambda_2}\right) \exp\left(-\lambda_1 x-\lambda_2 x^2\right) x^2 dx =\frac{\lambda_1^2+2 \lambda_2}{4 \lambda_2^2} \end{aligned}
τ1=∫−∞∞πλ2exp(−4λ2λ12)exp(−λ1x−λ2x2)xdx=−2λ2λ1τ2=∫−∞∞πλ2exp(−4λ2λ12)exp(−λ1x−λ2x2)x2dx=4λ22λ12+2λ2
将结果带入概率密度函数
p
(
x
)
=
1
2
π
(
τ
2
−
τ
1
2
)
exp
(
−
(
x
−
τ
1
)
2
2
(
τ
2
−
τ
1
2
)
)
(36)
p(x)=\sqrt{\frac{1}{2\pi(\tau_2-\tau_1^2)}}\exp\left(-\frac{(x-\tau_1)^2}{2(\tau_2-\tau_1^2)}\right)\tag{36}
p(x)=2π(τ2−τ12)1exp(−2(τ2−τ12)(x−τ1)2)(36)
这里
τ
2
−
τ
1
2
\tau_2-\tau_1^2
τ2−τ12正好是方差,因此结果正好是均值为
τ
1
\tau_1
τ1、方差为
τ
2
−
τ
1
2
\tau_2-\tau_1^2
τ2−τ12的正态分布!!这又成为了正态分布的一个来源!
参考
“熵”不起:从熵、最大熵原理到最大熵模型(二)
李航《统计学习方法》最大熵模型p(y|x)推导的正确过程
最大熵模型
详解最大熵模型
简易解说拉格朗日对偶(Lagrange duality)