常见的指数族分布:
- 高斯分布
- 伯努利分布
- 二项分布
- 柏松分布
- beta分布
- gamma分布
基本形式:
p ( x ∣ η ) = h ( x ) e x p [ η T ϕ ( x ) − A ( η ) ] p(x|\eta)=h(x)exp[\eta^T\phi(x)-A(\eta)] p(x∣η)=h(x)exp[ηTϕ(x)−A(η)]
其中:
η 是 参 数 向 量 \eta 是参数向量 η是参数向量
A ( η ) A(\eta) A(η):配分函数,也叫归一化因子
ϕ ( x ) \phi(x) ϕ(x): 充分统计量
最大熵原理是概率模型学习的一个准则.
最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型
信息量公式
I
(
x
)
=
log
1
p
(
x
)
=
−
log
p
(
x
)
I(x)=\log\frac{1}{p(x)}=-\log p(x)
I(x)=logp(x)1=−logp(x)
信息熵是信息量的期望
H
(
x
)
=
E
[
I
(
x
)
]
=
−
∑
p
(
x
)
log
p
(
x
)
H(x)=E[I(x)]=-\sum p(x)\log p(x)
H(x)=E[I(x)]=−∑p(x)logp(x)
求最大熵也就是求下列优化问题:
m
a
x
(
H
(
x
)
)
=
m
a
x
(
−
∑
p
(
x
)
log
p
(
x
)
)
max(H(x))=max(-\sum p(x)\log p(x))
max(H(x))=max(−∑p(x)logp(x))
s
.
t
.
∑
p
(
x
)
=
1
s.t. \quad \sum p(x)=1
s.t.∑p(x)=1
为了应用拉格朗日公式,原式等价于:
m
i
n
(
∑
p
(
x
)
log
p
(
x
)
)
min(\sum p(x)\log p(x))
min(∑p(x)logp(x))
s
.
t
.
∑
p
(
x
)
=
1
s.t. \quad \sum p(x)=1
s.t.∑p(x)=1
应用拉格朗日公式有:
L
(
p
(
x
)
,
λ
)
=
∑
p
(
x
)
log
p
(
x
)
+
λ
(
1
−
∑
p
(
x
)
)
L(p(x),\lambda)=\sum p(x)\log p(x)+\lambda(1-\sum p(x))
L(p(x),λ)=∑p(x)logp(x)+λ(1−∑p(x))
求最大的p(x)有,对p(x)求导,并令公式等于0有:
∂
L
∂
p
(
x
)
=
log
p
(
x
)
+
p
(
x
)
.
1
p
(
x
)
−
λ
=
0
\frac{\partial L}{\partial p(x)}=\log p(x)+p(x).\frac{1}{p(x)}-\lambda=0
∂p(x)∂L=logp(x)+p(x).p(x)1−λ=0
也就是
p
(
x
)
=
e
x
p
(
λ
−
1
)
p(x)=exp(\lambda-1)
p(x)=exp(λ−1)
由于
λ
\lambda
λ是常数,所以当p(x)是常数的时候,熵最大,也就是均匀分布的时候
最大熵模型:
最大熵模型相比最大熵原理,多了一个条件:
满足已知事实的约束
那么已知的事实就是样本
令
d
a
t
a
=
{
x
1
,
x
2
,
.
.
.
,
x
n
}
令data=\{x_1,x_2,...,x_n\}
令data={x1,x2,...,xn}
样本的概率为
p
^
(
X
=
x
i
)
=
c
o
u
n
t
(
x
i
)
n
\hat p(X=x_i)=\displaystyle \frac{count(x_i)}{n}
p^(X=xi)=ncount(xi)
其中
c
o
u
n
t
(
x
i
)
count(x_i)
count(xi)表示样本中是
x
i
x_i
xi的数量,n是样本个数
知道了每种样本的概率,也就知道了样本的期望值
用样本期望近似原函数期望,用f(x)表示x的函数向量,最优化问题可以描述为:
m
i
n
(
∑
p
(
x
)
log
p
(
x
)
)
min(\sum p(x)\log p(x))
min(∑p(x)logp(x))
s
.
t
.
∑
p
(
x
)
=
1
s.t. \quad \sum p(x)=1
s.t.∑p(x)=1
s
.
t
.
E
p
[
f
(
x
)
]
=
E
p
^
[
f
(
x
)
]
=
δ
s.t. \quad E_p[f(x)]=E_{\hat p}[f(x)]=\delta
s.t.Ep[f(x)]=Ep^[f(x)]=δ
拉格朗日方程为:
L
(
p
(
x
)
,
λ
,
v
)
=
∑
p
(
x
)
log
p
(
x
)
+
λ
(
1
−
∑
p
(
x
)
)
+
v
T
(
δ
−
E
p
^
[
f
(
x
)
]
)
L(p(x),\lambda,v)=\sum p(x)\log p(x)+\lambda(1-\sum p(x))+v^T(\delta-E_{\hat p}[f(x)])
L(p(x),λ,v)=∑p(x)logp(x)+λ(1−∑p(x))+vT(δ−Ep^[f(x)])
对p(x)求导有:
∂
L
∂
p
(
x
)
=
∑
(
log
p
(
x
)
+
1
−
λ
−
v
T
f
(
x
)
)
=
0
\frac{\partial L}{\partial p(x)}=\sum(\log p(x)+1-\lambda-v^Tf(x))=0
∂p(x)∂L=∑(logp(x)+1−λ−vTf(x))=0
log
p
(
x
)
=
v
T
f
(
x
)
+
λ
−
1
\log p(x)=v^Tf(x)+\lambda -1
logp(x)=vTf(x)+λ−1
p
(
x
)
=
e
x
p
{
v
T
f
(
x
)
+
λ
−
1
}
=
e
x
p
{
v
T
f
(
x
)
−
(
1
−
λ
)
}
p(x)=exp\{ v^Tf(x)+\lambda -1 \}=exp\{ v^Tf(x)-(1-\lambda )\}
p(x)=exp{vTf(x)+λ−1}=exp{vTf(x)−(1−λ)}
可以看到最大熵模型的概率分布满足指数族分布