文章目录
指数族分布主要是指的一类分布,只需要它们都是满足一种形式即可,比如我们常见的指数族分布有:
- Guassian 分布
- Bernoulli 分布 (类别分布)
- 二项分布 (多项式分布)
- 泊松分布
- Beta 分布
- Dirichlet 分布
- Gamma 分布
- Gibbs 分布
1.指数族分布通用形式
p ( x ∣ η ) = h ( x ) e x p [ η T ϕ ( x ) − A ( η ) ] (1) p(x|\eta)=h(x)exp^{[\eta^T\phi(x)-A(\eta)]}\tag{1} p(x∣η)=h(x)exp[ηTϕ(x)−A(η)](1)
- η : 参 数 向 量 , η , x ∈ R P \eta:参数向量,\eta,x\in \mathbb{R}^P η:参数向量,η,x∈RP
- A ( η ) : log ( p a r t i t i o n − f u n c t i o n ( 配 分 函 数 ) A(\eta):\log{(partition-function(配分函数)} A(η):log(partition−function(配分函数)
- h ( x ) : 只 跟 x 有 关 , 在 处 理 的 时 候 通 常 令 h ( x ) = 1 , 通 常 不 那 么 重 要 h(x):只跟x有关,在处理的时候通常令h(x)=1,通常不那么重要 h(x):只跟x有关,在处理的时候通常令h(x)=1,通常不那么重要
1.1 配分函数定义
配分函数来源于统计物理学,在这里其实就是一个归一化因子,它仅仅只是从计算角度来看,为了让
P
(
X
∣
θ
)
P(X|\theta)
P(X∣θ)是一个概率分布;让概率密度
p
^
(
x
∣
θ
)
\hat{p}(x|\theta)
p^(x∣θ)对x进行积分求和时为1;
我
们
定
义
:
p
(
x
∣
θ
)
=
1
z
p
^
(
x
∣
θ
)
(2)
我们定义:p(x|\theta)=\frac{1}{z}\hat{p}(x|\theta)\tag{2}
我们定义:p(x∣θ)=z1p^(x∣θ)(2)
两
边
同
时
对
x
求
积
分
:
∫
p
(
x
∣
θ
)
d
x
=
∫
1
z
p
^
(
x
∣
θ
)
d
x
(3)
两边同时对x求积分:\int p(x|\theta)dx=\int\frac{1}{z}\hat{p}(x|\theta)dx\tag{3}
两边同时对x求积分:∫p(x∣θ)dx=∫z1p^(x∣θ)dx(3)
因
为
:
∫
p
(
x
∣
θ
)
d
x
=
1
;
∫
1
z
p
^
(
x
∣
θ
)
d
x
=
1
z
∫
p
^
(
x
∣
θ
)
d
x
(4)
因为:\int p(x|\theta)dx=1;\int\frac{1}{z}\hat{p}(x|\theta)dx=\frac{1}{z}\int\hat{p}(x|\theta)dx\tag{4}
因为:∫p(x∣θ)dx=1;∫z1p^(x∣θ)dx=z1∫p^(x∣θ)dx(4)
所
以
:
z
=
∫
p
^
(
x
∣
θ
)
d
x
(5)
所以:z=\int\hat{p}(x|\theta)dx\tag{5}
所以:z=∫p^(x∣θ)dx(5)
1.2指数族分布中的配分函数
∵
p
(
x
∣
η
)
=
h
(
x
)
e
x
p
[
η
T
ϕ
(
x
)
−
A
(
η
)
]
\because p(x|\eta)=h(x)exp^{[\eta^T\phi(x)-A(\eta)]}
∵p(x∣η)=h(x)exp[ηTϕ(x)−A(η)]
∴
p
(
x
∣
η
)
=
h
(
x
)
e
x
p
[
η
T
ϕ
(
x
)
]
e
x
p
(
−
A
(
η
)
)
\therefore p(x|\eta)=h(x)exp^{[\eta^T\phi(x)]}exp^{(-A(\eta))}
∴p(x∣η)=h(x)exp[ηTϕ(x)]exp(−A(η))
∴
p
(
x
∣
η
)
=
1
e
x
p
A
(
η
)
h
(
x
)
e
x
p
[
η
T
ϕ
(
x
)
]
\therefore p(x|\eta)=\frac{1}{exp^{A(\eta)}}h(x)exp^{[\eta^T\phi(x)]}
∴p(x∣η)=expA(η)1h(x)exp[ηTϕ(x)]
∴
我
们
可
以
令
e
x
p
A
(
η
)
=
z
;
h
(
x
)
e
x
p
[
η
T
ϕ
(
x
)
]
=
p
^
(
x
∣
η
)
\therefore 我们可以令exp^{A(\eta)}=z;h(x)exp^{[\eta^T\phi(x)]}=\hat{p}(x|\eta)
∴我们可以令expA(η)=z;h(x)exp[ηTϕ(x)]=p^(x∣η)
∴
A
(
η
)
=
log
z
;
且
z
为
配
分
函
数
。
\therefore A(\eta)=\log z;且z为配分函数。
∴A(η)=logz;且z为配分函数。
A
(
η
)
=
log
∫
h
(
x
)
e
x
p
η
T
ϕ
(
x
)
d
x
(6)
A(\eta)=\log {\int h(x)exp^{\eta^T\phi(x)}dx}\tag{6}
A(η)=log∫h(x)expηTϕ(x)dx(6)
2.指数族分布特点
2.1 充分统计量[人大代表]
由于我们知道指数族分布的一般形式为:
p
(
x
∣
η
)
=
h
(
x
)
e
x
p
[
η
T
ϕ
(
x
)
−
A
(
η
)
]
(7)
p(x|\eta)=h(x)exp^{[\eta^T\phi(x)-A(\eta)]}\tag{7}
p(x∣η)=h(x)exp[ηTϕ(x)−A(η)](7)
- ϕ ( x ) \phi(x) ϕ(x):充分统计量
我们定义充分统计量为一个样本的函数,是对样本的加工。如果我们有了统计量,那么我们可以用这个统计量来表达样本的完整的信息。甚至我们可以丢弃掉样本。
举例:
我们定义样本服从高斯分布(Guassian-Distribution),样本数据为: { x 1 , x 2 , . . . , x N } \{x_1,x_2,...,x_N\} {x1,x2,...,xN}
我们令 ϕ ( x ) = ( ∑ i = 1 N x i ∑ i = 1 N x i 2 ) \phi(x)=\begin{pmatrix} \sum_{i=1}^{N}x_i\\\\\sum_{i=1}^{N}x_i^2 \end{pmatrix} ϕ(x)=⎝⎛∑i=1Nxi∑i=1Nxi2⎠⎞,我们可以用 ϕ ( x ) \phi(x) ϕ(x)来表达高斯分布的 θ = ( μ , Σ ) \theta=(\mu,\Sigma) θ=(μ,Σ),直接用它来生成一个与原分布一样的分布;
它的好处是,我们在机器学习中的Online-Learning(在线学习)非常有用,我们只需要用少量的数据 ϕ ( x ) \phi(x) ϕ(x)就可以表达出样本数据,起到压缩数据的作用。
2.2 共轭
共轭是一种比较方便的方法,其主要思想是假设给定一个似然分布
p
(
x
∣
z
)
p(x|z)
p(x∣z),且似然具有一个自身共轭的先验
p
(
z
)
p(z)
p(z),那么就会得到
p
(
z
)
p(z)
p(z)与p(z|x)具有相同的分布形式
例:
p
(
z
∣
x
)
∝
p
(
x
∣
z
)
p
(
z
)
(8)
p(z|x) \propto p(x|z)p(z)\tag{8}
p(z∣x)∝p(x∣z)p(z)(8)
- 如 果 p ( x ∣ z ) 与 p ( z ) 共 轭 , 且 p ( z ) 服 从 B e t a 分 布 , 那 么 p ( x ∣ z ) 也 服 从 B e t a 分 布 如果p(x|z)与p(z)共轭,且p(z)服从Beta分布,那么p(x|z)也服从Beta分布 如果p(x∣z)与p(z)共轭,且p(z)服从Beta分布,那么p(x∣z)也服从Beta分布
贝叶斯定理:
p
(
z
∣
x
)
=
p
(
x
∣
z
)
p
(
z
)
∫
z
p
(
x
∣
z
)
p
(
z
)
d
z
(9)
p(z|x)=\frac{p(x|z)p(z)}{\int_z p(x|z)p(z)dz}\tag{9}
p(z∣x)=∫zp(x∣z)p(z)dzp(x∣z)p(z)(9)
- p ( z ∣ x ) p(z|x) p(z∣x):后验概率
- p ( x ∣ z ) p(x|z) p(x∣z): 似然概率
- p ( z ) p(z) p(z):先验概率
我们推断的主要问题是积分难的问题,由于我们知道通常情况下 ∫ z p ( x ∣ z ) p ( z ) d z \int_z p(x|z)p(z)dz ∫zp(x∣z)p(z)dz一般求解不出来的,或者 p ( z ∣ x ) p(z|x) p(z∣x)形式特别复杂,导致我们很难算出 E p ( z ∣ x ) [ f ( z ) ] \mathbb{E}_{p(z|x)}[f(z)] Ep(z∣x)[f(z)],为了解决上述问题通常有如下方式:
近似推断:直接来求出后验 p ( z ∣ x ) 和 E p ( z ∣ x ) [ f ( z ) ] p(z|x)和\mathbb{E}_{p(z|x)}[f(z)] p(z∣x)和Ep(z∣x)[f(z)]
- 变分
- MCMC
变分:用一个简单的方式去拟合一个复杂的分布,从而得到关于 p ( z ∣ x ) p(z|x) p(z∣x)的近似分布形式
采样:蒙特卡洛采样中的序列蒙特卡洛(SMC)与马尔可夫链蒙特卡洛(MCMC)是直接求解 E p ( z ∣ x ) [ f ( z ) ] \mathbb{E}_{p(z|x)}[f(z)] Ep(z∣x)[f(z)];其主要是用来求解一些不易求积分的问题。
2.3 最大熵(无信息先验)
在给定限制条件下,对未知的部分假设它们是等可能发生的,我们就用最大熵的量化这种等可能性。对于贝叶斯理论来说,我们往往需要给先验p(z)一个分布,常常遵循如下方:
- 共轭:为了计算方便
- 最大熵:为了解决无信息先验问题
- Jerrif.
2.4 广义线性模型
广义线性模型提出来主要是为了解决分类和回归问题,它有三个基本的概念
- 线性组合: w T x w^Tx wTx
- 链接函数(Link-Function)—> ( 激 活 函 数 ) − 1 (激活函数)^{-1} (激活函数)−1;注:激活函数的反函数
- 指数族分布:
y
∣
x
∼
指
数
族
分
布
y|x\sim指数族分布
y∣x∼指数族分布
1)线性回归:当假设噪声服从高斯分布时,可以得到 y ∣ x ∼ N ( μ , Σ ) y|x\sim N(\mu,\Sigma) y∣x∼N(μ,Σ)
2)二分类问题:
2.1) y ∣ x ∼ B e r n o u l l i 分 布 y|x\sim Bernoulli分布 y∣x∼Bernoulli分布
2.2) y ∣ x ∼ P o s s i o n 分 布 y|x\sim Possion分布 y∣x∼Possion分布
2.5 概率图模型
概率图模型中包含如下:
- 无向图:受限玻尔兹曼机RBM(Restricted Boltzmann Machine)
2.6 变分推断
指数族分布在变分推断中占据了十分重要的地位,如果分布满足指数族分布,那么会让变分推断大大的简化。
3.高斯分布的指数族形式转换
我们需要将高斯分布的密度函数转换成通用指数族分布的形式:
高
斯
:
p
(
x
∣
μ
,
σ
2
)
=
1
2
π
σ
e
x
p
{
−
(
x
−
μ
)
2
2
σ
2
}
⟹
指
数
族
:
p
(
x
∣
η
)
=
h
(
x
)
e
x
p
{
[
η
T
ϕ
(
x
)
−
A
(
η
)
]
}
(10)
高斯:p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}\Longrightarrow 指数族:p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{10}
高斯:p(x∣μ,σ2)=2πσ1exp{−2σ2(x−μ)2}⟹指数族:p(x∣η)=h(x)exp{[ηTϕ(x)−A(η)]}(10)
3.1高斯转换详细步骤:
∵ p ( x ∣ μ , σ 2 ) = 1 2 π σ e x p { − ( x − μ ) 2 2 σ 2 } \because p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} ∵p(x∣μ,σ2)=2πσ1exp{−2σ2(x−μ)2}
∴ p ( x ∣ μ , σ 2 ) = e x p { − 1 2 log ( 2 π σ 2 ) } e x p { − x 2 − 2 x μ + μ 2 2 σ 2 } \therefore p(x|\mu,\sigma^2)=exp\{-\frac{1}{2}\log(2\pi\sigma^2)\}exp\{-\frac{x^2-2x\mu+\mu^2}{2\sigma^2}\} ∴p(x∣μ,σ2)=exp{−21log(2πσ2)}exp{−2σ2x2−2xμ+μ2}
∴
p
(
x
∣
μ
,
σ
2
)
=
e
x
p
{
−
1
2
σ
2
(
−
2
μ
,
1
)
(
x
x
2
)
−
(
μ
2
2
σ
2
+
1
2
log
(
2
π
σ
2
)
)
}
\therefore p(x|\mu,\sigma^2)=exp\{-\frac{1}{2\sigma^2}(-2\mu,1)\begin{pmatrix} x\\\\x^2 \end{pmatrix}-(\frac{\mu^2}{2\sigma^2}+\frac{1}{2}\log(2\pi\sigma^2))\}
∴p(x∣μ,σ2)=exp{−2σ21(−2μ,1)⎝⎛xx2⎠⎞−(2σ2μ2+21log(2πσ2))}
∴
p
(
x
∣
μ
,
σ
2
)
=
e
x
p
{
(
μ
σ
2
,
−
1
2
σ
2
)
(
x
x
2
)
−
(
μ
2
2
σ
2
+
1
2
log
(
2
π
σ
2
)
)
}
\therefore p(x|\mu,\sigma^2)=exp\{(\frac{\mu}{\sigma^2},-\frac{1}{2\sigma^2})\begin{pmatrix} x\\\\x^2 \end{pmatrix}-(\frac{\mu^2}{2\sigma^2}+\frac{1}{2}\log(2\pi\sigma^2))\}
∴p(x∣μ,σ2)=exp{(σ2μ,−2σ21)⎝⎛xx2⎠⎞−(2σ2μ2+21log(2πσ2))}
我们将上述形式转换成指数族分布可得如下:
η
=
(
η
1
η
2
)
=
(
μ
σ
2
−
1
2
σ
2
)
⟹
η
1
=
μ
σ
2
;
η
2
=
−
1
2
σ
2
\eta=\begin{pmatrix} \eta_1\\\\\eta_2 \end{pmatrix}=\begin{pmatrix} \frac{\mu}{\sigma^2}\\\\-\frac{1}{2\sigma^2} \end{pmatrix}\Longrightarrow \eta_1=\frac{\mu}{\sigma^2};\eta_2=-\frac{1}{2\sigma^2}
η=⎝⎛η1η2⎠⎞=⎝⎛σ2μ−2σ21⎠⎞⟹η1=σ2μ;η2=−2σ21
μ
=
−
η
1
2
η
2
;
σ
2
=
−
1
2
η
2
(11)
\mu=-\frac{\eta_1}{2\eta_2};\sigma^2=-\frac{1}{2\eta_2}\tag{11}
μ=−2η2η1;σ2=−2η21(11)
我们可以将
A
(
η
)
=
(
μ
2
2
σ
2
+
1
2
log
(
2
π
σ
2
)
)
化
简
为
含
η
1
,
η
2
的
式
子
:
A(\eta)=(\frac{\mu^2}{2\sigma^2}+\frac{1}{2}\log(2\pi\sigma^2))化简为含\eta_1,\eta_2的式子:
A(η)=(2σ2μ2+21log(2πσ2))化简为含η1,η2的式子:
A
(
η
)
=
−
η
1
2
4
η
2
+
1
2
log
(
−
π
η
2
)
(12)
A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})}\tag{12}
A(η)=−4η2η12+21log(−η2π)(12)
综上所述:
指数族分布形式:
p
(
x
∣
η
)
=
h
(
x
)
e
x
p
{
[
η
T
ϕ
(
x
)
−
A
(
η
)
]
}
(13)
p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{13}
p(x∣η)=h(x)exp{[ηTϕ(x)−A(η)]}(13)
h
(
x
)
=
1
(13)
h(x)=1\tag{13}
h(x)=1(13)
η
=
(
μ
σ
2
−
1
2
σ
2
)
(13)
\eta=\begin{pmatrix} \frac{\mu}{\sigma^2}\\\\-\frac{1}{2\sigma^2} \end{pmatrix}\tag{13}
η=⎝⎛σ2μ−2σ21⎠⎞(13)
ϕ
(
x
)
=
(
x
x
2
)
(13)
\phi(x)=\begin{pmatrix} x\\\\x^2 \end{pmatrix}\tag{13}
ϕ(x)=⎝⎛xx2⎠⎞(13)
A
(
η
)
=
−
η
1
2
4
η
2
+
1
2
log
(
−
π
η
2
)
(13)
A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})}\tag{13}
A(η)=−4η2η12+21log(−η2π)(13)
4.对数配分函数 A ′ ( η ) , A ′ ′ ( η ) A'(\eta),A''(\eta) A′(η),A′′(η)
我们已知指数族分布的一般形式为:
p
(
x
∣
η
)
=
h
(
x
)
e
x
p
{
[
η
T
ϕ
(
x
)
−
A
(
η
)
]
}
(14)
p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{14}
p(x∣η)=h(x)exp{[ηTϕ(x)−A(η)]}(14)
步骤如下:
p ( x ∣ η ) = 1 e x p { A ( η ) } h ( x ) e x p { [ η T ϕ ( x ) ] } p(x|\eta)=\frac{1}{exp\{A(\eta)\}}h(x)exp\{[\eta^T\phi(x)]\} p(x∣η)=exp{A(η)}1h(x)exp{[ηTϕ(x)]}
两边对x进行积分
∫ p ( x ∣ η ) d x = ∫ 1 e x p { A ( η ) } h ( x ) e x p { [ η T ϕ ( x ) ] } d x = 1 \int p(x|\eta)dx=\int \frac{1}{exp\{A(\eta)\}}h(x)exp\{[\eta^T\phi(x)]\}dx=1 ∫p(x∣η)dx=∫exp{A(η)}1h(x)exp{[ηTϕ(x)]}dx=1
因为: ∫ p ( x ∣ η ) d x = 1 , 并 整 理 上 式 可 得 : \int p(x|\eta)dx=1,并整理上式可得: ∫p(x∣η)dx=1,并整理上式可得:
∫ h ( x ) e x p { [ η T ϕ ( x ) ] } d x = e x p { A ( η ) } \int h(x)exp\{[\eta^T\phi(x)]\}dx=exp\{A(\eta)\} ∫h(x)exp{[ηTϕ(x)]}dx=exp{A(η)}
等式两边对 η \eta η求导可得:
∫ h ( x ) e x p { [ η T ϕ ( x ) ] } ϕ ( x ) d x = e x p { A ( η ) } A ′ ( η ) \int h(x)exp\{[\eta^T\phi(x)]\}\phi(x)dx=exp\{A(\eta)\}A'(\eta) ∫h(x)exp{[ηTϕ(x)]}ϕ(x)dx=exp{A(η)}A′(η)
整理上式可得:
A ′ ( η ) = ∫ h ( x ) e x p { [ η T ϕ ( x ) ] } ϕ ( x ) d x e x p { A ( η ) } = ∫ h ( x ) e x p { η T ϕ ( x ) − A ( η ) } ϕ ( x ) d x = E p ( x ∣ η ) [ ϕ ( x ) ] A'(\eta)=\frac{\int h(x)exp\{[\eta^T\phi(x)]\}\phi(x)dx}{exp\{A(\eta)\}}=\int h(x)exp\{\eta^T\phi(x)-A(\eta)\}\phi(x)dx=\mathbb{E}_{p(x|\eta)}[\phi(x)] A′(η)=exp{A(η)}∫h(x)exp{[ηTϕ(x)]}ϕ(x)dx=∫h(x)exp{ηTϕ(x)−A(η)}ϕ(x)dx=Ep(x∣η)[ϕ(x)]
结论:
A
′
(
η
)
=
E
x
∼
p
(
x
∣
η
)
[
ϕ
(
x
)
]
(15)
A'(\eta)=\mathbb{E}_{x\sim p(x|\eta)}[\phi(x)]\tag{15}
A′(η)=Ex∼p(x∣η)[ϕ(x)](15)
A
′
′
(
η
)
=
V
a
r
x
∼
p
(
x
∣
η
)
[
ϕ
(
x
)
]
(16)
A''(\eta)=\mathbb{Var}_{x\sim p(x|\eta)}[\phi(x)]\tag{16}
A′′(η)=Varx∼p(x∣η)[ϕ(x)](16)
注:由于
A
′
′
(
η
)
=
V
a
r
x
∼
p
(
x
∣
η
)
[
ϕ
(
x
)
]
,
且
V
a
r
x
∼
p
(
x
∣
η
)
[
ϕ
(
x
)
]
≥
0
;
所
以
A
′
′
(
η
)
≥
0
;
故
为
凸
函
数
A''(\eta)=\mathbb{Var}_{x\sim p(x|\eta)}[\phi(x)],且\mathbb{Var}_{x\sim p(x|\eta)}[\phi(x)]\geq0;所以A''(\eta)\geq0;故为凸函数
A′′(η)=Varx∼p(x∣η)[ϕ(x)],且Varx∼p(x∣η)[ϕ(x)]≥0;所以A′′(η)≥0;故为凸函数
4.1用高斯分布验证
由前面我们的推断高斯密度函数中得到公式<13>
指数族分布形式:
p
(
x
∣
η
)
=
h
(
x
)
e
x
p
{
[
η
T
ϕ
(
x
)
−
A
(
η
)
]
}
(13)
p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{13}
p(x∣η)=h(x)exp{[ηTϕ(x)−A(η)]}(13)
h
(
x
)
=
1
(13)
h(x)=1\tag{13}
h(x)=1(13)
η
=
(
μ
σ
2
−
1
2
σ
2
)
(13)
\eta=\begin{pmatrix} \frac{\mu}{\sigma^2}\\\\-\frac{1}{2\sigma^2} \end{pmatrix}\tag{13}
η=⎝⎛σ2μ−2σ21⎠⎞(13)
ϕ
(
x
)
=
(
x
x
2
)
(13)
\phi(x)=\begin{pmatrix} x\\\\x^2 \end{pmatrix}\tag{13}
ϕ(x)=⎝⎛xx2⎠⎞(13)
A
(
η
)
=
−
η
1
2
4
η
2
+
1
2
log
(
−
π
η
2
)
(13)
A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})}\tag{13}
A(η)=−4η2η12+21log(−η2π)(13)
那么我们求:
E
[
ϕ
(
x
)
]
=
(
E
[
x
]
E
[
x
2
]
)
\mathbb{E}[\phi(x)]=\begin{pmatrix} \mathbb{E}[x]\\\\\mathbb{E}[x^2] \end{pmatrix}
E[ϕ(x)]=⎝⎛E[x]E[x2]⎠⎞
又因为,
A
′
[
η
1
]
=
E
[
ϕ
(
x
1
)
]
;
且
E
[
ϕ
(
x
1
)
]
=
E
[
x
1
]
=
μ
A'[\eta_1]=\mathbb{E}[\phi(x_1)];且\mathbb{E}[\phi(x_1)]= \mathbb{E}[x_1]=\mu
A′[η1]=E[ϕ(x1)];且E[ϕ(x1)]=E[x1]=μ
那么我们就验证 A ′ [ η 1 ] 是 否 等 于 μ A'[\eta_1]是否等于\mu A′[η1]是否等于μ
∵ A ( η ) = − η 1 2 4 η 2 + 1 2 log ( − π η 2 ) \because A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})} ∵A(η)=−4η2η12+21log(−η2π)
对 η 1 求 偏 导 可 得 : \eta_1求偏导可得: η1求偏导可得:
A ′ [ η 1 ] = − η 1 2 η 2 A'[\eta_1]=-\frac{\eta_1}{2\eta_2} A′[η1]=−2η2η1
将 η 1 = μ σ 2 ; η 2 = − 1 2 σ 2 \eta_1=\frac{\mu}{\sigma^2};\eta_2=-\frac{1}{2\sigma^2} η1=σ2μ;η2=−2σ21代入上式可得:
A ′ [ η 1 ] = μ A'[\eta_1]=\mu A′[η1]=μ
故 A ′ ( η ) = E x ∼ p ( x ∣ η ) [ ϕ ( x ) ] 成 立 故A'(\eta)=\mathbb{E}_{x\sim p(x|\eta)}[\phi(x)]成立 故A′(η)=Ex∼p(x∣η)[ϕ(x)]成立
5.极大似然估计
我们定义一组数据集: D = { x 1 , x 2 , . . . , x N } D=\{x_1,x_2,...,x_N\} D={x1,x2,...,xN},我们要求极大似然估计 η M L E \eta_{MLE} ηMLE
已知:
η
M
L
E
=
a
r
g
m
a
x
log
∏
i
=
1
N
p
(
x
i
∣
η
)
(14)
\eta_{MLE}=argmax \log \prod_{i=1}^{N}p(x_i|\eta)\tag{14}
ηMLE=argmaxlogi=1∏Np(xi∣η)(14)
p
(
x
i
∣
η
)
=
h
(
x
i
)
e
x
p
[
η
T
ϕ
(
x
i
)
−
A
(
η
)
]
(15)
p(x_i|\eta)=h(x_i)exp^{[\eta^T\phi(x_i)-A(\eta)]}\tag{15}
p(xi∣η)=h(xi)exp[ηTϕ(xi)−A(η)](15)
详解:
∵ η M L E = a r g m a x log ∏ i = 1 N h ( x i ) e x p [ η T ϕ ( x i ) − A ( η ) ] \because \eta_{MLE}=argmax \log \prod_{i=1}^{N}h(x_i)exp^{[\eta^T\phi(x_i)-A(\eta)]} ∵ηMLE=argmaxlog∏i=1Nh(xi)exp[ηTϕ(xi)−A(η)]
∴ η M L E = a r g m a x ∑ i = 1 N log [ h ( x i ) e x p [ η T ϕ ( x i ) − A ( η ) ] ] \therefore \eta_{MLE}=argmax \sum_{i=1}^{N}\log [h(x_i)exp^{[\eta^T\phi(x_i)-A(\eta)]}] ∴ηMLE=argmax∑i=1Nlog[h(xi)exp[ηTϕ(xi)−A(η)]]
∴ η M L E = a r g m a x ∑ i = 1 N [ log [ h ( x i ) ] + [ η T ϕ ( x i ) − A ( η ) ] ] \therefore \eta_{MLE}=argmax \sum_{i=1}^{N}[\log [h(x_i)]+{[\eta^T\phi(x_i)-A(\eta)]}] ∴ηMLE=argmax∑i=1N[log[h(xi)]+[ηTϕ(xi)−A(η)]]
∵ h ( x i ) 与 η M L E 无 关 , 所 以 在 后 续 求 偏 导 中 为 零 , 可 以 忽 略 。 \because h(x_i)与\eta_{MLE}无关,所以在后续求偏导中为零,可以忽略。 ∵h(xi)与ηMLE无关,所以在后续求偏导中为零,可以忽略。
∴ η M L E = a r g m a x ∑ i = 1 N [ η T ϕ ( x i ) − A ( η ) ] \therefore \eta_{MLE}=argmax \sum_{i=1}^{N}{[\eta^T\phi(x_i)-A(\eta)}] ∴ηMLE=argmax∑i=1N[ηTϕ(xi)−A(η)]
求偏导可得:
∴ ∂ η M L E ∂ η = a r g m a x ∑ i = 1 N [ ϕ ( x i ) − A ′ ( η ) ] = 0 \therefore \frac{\partial \eta_{MLE}}{\partial \eta}=argmax \sum_{i=1}^{N}[\phi(x_i)-A'(\eta)]=0 ∴∂η∂ηMLE=argmax∑i=1N[ϕ(xi)−A′(η)]=0
∴ A ′ ( η M L E ) = 1 N ∑ i = 1 N ϕ ( x i ) \therefore A'(\eta_{MLE})=\frac{1}{N}\sum_{i=1}^{N}\phi(x_i) ∴A′(ηMLE)=N1∑i=1Nϕ(xi)
注 : A ′ ( η M L E ) 为 η M L E 的 函 数 , 所 以 , 我 们 可 以 通 过 反 解 A ′ ( η M L E ) 求 解 η M L E 注:A'(\eta_{MLE})为\eta_{MLE}的函数,所以,我们可以通过反解A'(\eta_{MLE})求解\eta_{MLE} 注:A′(ηMLE)为ηMLE的函数,所以,我们可以通过反解A′(ηMLE)求解ηMLE
结 论 : 对 于 求 解 η M L E 时 , 我 们 只 需 要 求 解 1 N ∑ i = 1 N ϕ ( x i ) 即 可 , 不 需 要 保 留 整 个 样 本 。 神 奇 ! 结论:对于求解\eta_{MLE}时,我们只需要求解\frac{1}{N}\sum_{i=1}^{N}\phi(x_i)即可,不需要保留整个样本。神奇! 结论:对于求解ηMLE时,我们只需要求解N1i=1∑Nϕ(xi)即可,不需要保留整个样本。神奇!
6.最大熵原理
6.1在无信息先验下最大熵分布为均匀分布
熵的定义:用来衡量信息反映的信息量的多少的单位;一个系统越有序,信息熵越低,一个系统越无序,信息熵越高。
我们定义一个随机变量发生的概率为p,那么它的信息量为
−
log
p
-\log p
−logp;比如说当p=1时,那么这个系统已经确定了,所以它的信息量为0;
熵的为信息量
−
log
p
-\log p
−logp关于分布p(x)的期望:
熵
=
E
p
(
x
)
[
−
log
p
]
=
∫
−
p
(
x
)
log
p
(
x
)
d
x
=
−
∑
x
p
(
x
)
log
p
(
x
)
=
(16)
熵=\mathbb{E}_{p(x)}[-\log p]=\int -p(x)\log p(x)dx=-\sum_{x}p(x)\log p(x)=\tag{16}
熵=Ep(x)[−logp]=∫−p(x)logp(x)dx=−x∑p(x)logp(x)=(16)
最大熵的就是让一个分布尽最大可能满足等可能性,这里我们先讨论没有任何约束条件下的最大熵;
H
(
x
)
=
−
∑
x
p
(
x
)
log
p
(
x
)
(17)
H(x)=-\sum_{x}p(x)\log p(x)\tag{17}
H(x)=−x∑p(x)logp(x)(17)
我们定义分布满足如下:
由上表可得 ∑ i = 1 N p i = 1 \sum_{i=1}^{N}p_i=1 ∑i=1Npi=1
我们的目标是求在满足条件
∑
i
=
1
N
p
i
=
1
\sum_{i=1}^{N}p_i=1
∑i=1Npi=1的情况下,要求
H
(
x
)
H(x)
H(x)的最大值;用数学表达如下:
a
r
g
m
a
x
H
(
X
)
=
a
r
g
m
a
x
[
−
∑
x
p
(
x
)
log
p
(
x
)
]
=
a
r
g
m
i
m
[
∑
x
p
(
x
)
log
p
(
x
)
]
(18)
argmax H(X)=argmax[-\sum_{x}p(x)\log p(x)]=argmim[\sum_{x}p(x)\log p(x)]\tag{18}
argmaxH(X)=argmax[−x∑p(x)logp(x)]=argmim[x∑p(x)logp(x)](18)
s
.
t
:
∑
i
=
1
N
p
i
=
1
(18)
s.t:\sum_{i=1}^{N}p_i=1\tag{18}
s.t:i=1∑Npi=1(18)
注
:
p
=
(
p
1
,
p
2
,
.
.
.
,
p
N
)
T
注:p=(p_1,p_2,...,p_N)^T
注:p=(p1,p2,...,pN)T
将上述带约束问题的极值问题转换成拉格朗日乘子式可得:
L
(
p
,
λ
)
=
∑
i
=
1
N
p
(
x
i
)
log
p
(
x
i
)
+
λ
(
1
−
∑
i
=
1
N
p
(
x
i
)
)
(19)
L(p,\lambda)=\sum_{i=1}^{N}p(x_i)\log p(x_i)+\lambda(1-\sum_{i=1}^{N}p(x_i))\tag{19}
L(p,λ)=i=1∑Np(xi)logp(xi)+λ(1−i=1∑Np(xi))(19)
令
:
∂
L
(
p
,
λ
)
∂
p
(
x
i
)
=
0
(20)
令:\frac{\partial L(p,\lambda)}{\partial p(x_i)}=0\tag{20}
令:∂p(xi)∂L(p,λ)=0(20)
∂
L
(
p
,
λ
)
∂
p
(
x
i
)
=
log
p
(
x
i
)
+
1
−
λ
=
0
(21)
\frac{\partial L(p,\lambda)}{\partial p(x_i)}=\log p(x_i)+1-\lambda=0\tag{21}
∂p(xi)∂L(p,λ)=logp(xi)+1−λ=0(21)
解得:
p
^
(
x
i
)
=
e
x
p
{
λ
−
1
}
\hat{p}{(x_i)}=exp\{\lambda-1\}
p^(xi)=exp{λ−1}
因为
λ
\lambda
λ为常数,所以我们可以得到如下:
p
1
^
=
p
2
^
=
.
.
.
=
p
N
^
=
1
k
(22)
\hat{p_1}=\hat{p_2}=...=\hat{p_N}=\frac{1}{k}\tag{22}
p1^=p2^=...=pN^=k1(22)
结论:由此可得:当在无任何约束条件下的分布,如果要满足最大熵条件,那这个分布是均匀分布。
6.2满足已知事实的情况下的最大熵分布是指数族分布
已知:指数族分布的概率密度函数如下:
p
(
x
i
∣
η
)
=
h
(
x
i
)
e
x
p
[
η
T
ϕ
(
x
i
)
−
A
(
η
)
]
(23)
p(x_i|\eta)=h(x_i)exp{[\eta^T\phi(x_i)-A(\eta)]}\tag{23}
p(xi∣η)=h(xi)exp[ηTϕ(xi)−A(η)](23)
为了方便计算可简化成如下:
p
(
x
i
∣
η
)
=
1
Z
(
η
)
h
(
x
i
)
e
x
p
[
η
T
ϕ
(
x
i
)
]
(24)
p(x_i|\eta)=\frac{1}{Z(\eta)}h(x_i)exp{[\eta^T\phi(x_i)]}\tag{24}
p(xi∣η)=Z(η)1h(xi)exp[ηTϕ(xi)](24)
经验分布就是指的是一个已经发生的事实的一组数据;现在的问题是怎样用数学的方式来表达一个既定事实。
我们先定义一组基本数据集
D
=
{
x
1
,
x
2
,
.
.
.
,
x
N
}
D=\{x_1,x_2,...,x_N\}
D={x1,x2,...,xN}
经验分布的概率密度函数:
P ^ ( X = x ) = p ^ ( x ) = c o u n t ( x ) N (25) \hat{P}(X=x)=\hat{p}(x)=\frac{count(x)}{N}\tag{25} P^(X=x)=p^(x)=Ncount(x)(25)
- c o u n t ( x ) : 表 示 发 生 X = x 事 件 的 个 数 count(x):表示发生X=x事件的个数 count(x):表示发生X=x事件的个数
-
p
^
(
x
)
是
指
X
=
x
发
生
的
概
率
大
小
\hat{p}(x)是指X=x发生的概率大小
p^(x)是指X=x发生的概率大小
有了概率大小,有了x值,那么我们就能根据期望和方差的定义求出 E p ^ [ x ] , D p ^ [ x ] \mathbb{E}_{\hat{p}}[x],\mathbb{D}_{\hat{p}}[x] Ep^[x],Dp^[x],我们假设存在任意一组映射满足 y i = f i x y_i=f_i{x} yi=fix,即:
f ( x ) = ( f 1 ( x ) f 2 ( x ) ⋮ f Q ( x ) ) (26) f(x)=\begin{pmatrix} f_1(x)\\f_2(x)\\\vdots\\f_Q(x) \end{pmatrix}\tag{26} f(x)=⎝⎜⎜⎜⎛f1(x)f2(x)⋮fQ(x)⎠⎟⎟⎟⎞(26)
由于我们知道了 E p ^ [ x ] , D p ^ [ x ] \mathbb{E}_{\hat{p}}[x],\mathbb{D}_{\hat{p}}[x] Ep^[x],Dp^[x],那么我们肯定求得如下值:
E p ^ [ f ( x i ) ] = △ i ; 注 : △ i 是 已 知 事 实 (27) \mathbb{E}_{\hat{p}}[f(x_i)]=\triangle_i;注:\triangle_i是已知事实\tag{27} Ep^[f(xi)]=△i;注:△i是已知事实(27)
△ i = ( △ 1 △ 2 ⋮ △ Q ) (28) \triangle_i= \begin{pmatrix} \triangle_1\\\triangle_2\\\vdots\\\triangle_Q \end{pmatrix}\tag{28} △i=⎝⎜⎜⎜⎛△1△2⋮△Q⎠⎟⎟⎟⎞(28)
且我们知道最大熵H(x)可表示如下:
H ( x ) = − ∑ x p ( x ) log p ( x ) (29) H(x)=-\sum_{x}p(x)\log p(x)\tag{29} H(x)=−x∑p(x)logp(x)(29)
以上的最大值约束问题我们用拉格朗日乘子法转换成优化问题:
原始模型:
目
标
函
数
:
a
r
g
m
i
n
∑
x
p
(
x
)
log
p
(
x
)
(30)
目标函数:argmin\sum_{x}p(x)\log p(x)\tag{30}
目标函数:argminx∑p(x)logp(x)(30)
约
束
条
件
(
1
)
:
∑
i
=
1
N
p
(
x
)
=
1
(31)
约束条件(1):\sum_{i=1}^{N}p(x)=1\tag{31}
约束条件(1):i=1∑Np(x)=1(31)
约
束
条
件
(
2
)
:
E
p
[
f
(
x
)
]
=
E
p
^
[
f
(
x
)
]
=
△
(32)
约束条件(2):\mathbb{E}_p[f(x)]=\mathbb{E}_{\hat{p}}[f(x)]=\triangle\tag{32}
约束条件(2):Ep[f(x)]=Ep^[f(x)]=△(32)
用拉格朗日乘子法来求带约束的方程的极值:
L
(
p
,
λ
,
λ
0
)
=
∑
i
=
1
N
p
(
x
i
)
log
p
(
x
i
)
+
λ
0
(
1
−
∑
i
=
1
N
p
(
x
i
)
)
+
λ
T
(
△
−
E
p
[
f
(
x
)
]
)
(33)
L(p,\lambda,\lambda_0)=\sum_{i=1}^{N}p(x_i)\log p(x_i)+\lambda_0(1-\sum_{i=1}^{N}p(x_i))+\lambda^T(\triangle-\mathbb{E}_{p}[f(x)])\tag{33}
L(p,λ,λ0)=i=1∑Np(xi)logp(xi)+λ0(1−i=1∑Np(xi))+λT(△−Ep[f(x)])(33)
注:
E
p
^
[
f
(
x
)
]
)
=
∑
x
p
(
x
)
f
(
x
)
;
∂
E
p
^
[
f
(
x
)
]
)
∂
p
(
x
)
=
f
(
x
)
\mathbb{E}_{\hat{p}}[f(x)])=\sum_{x}p(x)f(x);\frac{\partial \mathbb{E}_{\hat{p}}[f(x)]) }{\partial p(x)}=f(x)
Ep^[f(x)])=∑xp(x)f(x);∂p(x)∂Ep^[f(x)])=f(x)
L ( p , λ , λ 0 ) 对 p ( x i ) 求 偏 导 可 得 : L(p,\lambda,\lambda_0)对p(x_i)求偏导可得: L(p,λ,λ0)对p(xi)求偏导可得:
令 : ∂ L ( p , λ , λ 0 ) ∂ p ( x i ) = 0 (34) 令:\frac{\partial L(p,\lambda,\lambda_0) }{\partial p(x_i)}=0\tag{34} 令:∂p(xi)∂L(p,λ,λ0)=0(34)
由于我们是对N个中的 X = x i X=x_i X=xi进行求导,所以其他项为常数,其倒数为零;
log
p
(
x
i
)
+
1
−
λ
0
−
λ
T
f
(
x
i
)
=
0
(35)
\log p(x_i)+1-\lambda_0-\lambda^Tf(x_i)=0\tag{35}
logp(xi)+1−λ0−λTf(xi)=0(35)
p
^
(
x
i
)
=
e
x
p
{
λ
T
f
(
x
i
)
−
(
λ
0
−
1
)
}
(36)
\hat{p}(x_i)=exp\{\lambda^Tf(x_i)-(\lambda_0-1)\}\tag{36}
p^(xi)=exp{λTf(xi)−(λ0−1)}(36)
上式是不是很想我们通用的指数族分布:
p
(
x
i
∣
η
)
=
h
(
x
i
)
e
x
p
[
η
T
ϕ
(
x
i
)
−
A
(
η
)
]
(37)
p(x_i|\eta)=h(x_i)exp{[\eta^T\phi(x_i)-A(\eta)]}\tag{37}
p(xi∣η)=h(xi)exp[ηTϕ(xi)−A(η)](37)
<36>式类比于<37>中的
h
(
x
i
)
=
1
;
η
=
λ
;
A
(
η
)
=
λ
0
−
1
h(x_i)=1;\eta=\lambda;A(\eta)=\lambda_0-1
h(xi)=1;η=λ;A(η)=λ0−1
结论:
在
满
足
已
知
事
实
的
情
况
下
的
最
大
熵
分
布
是
指
数
族
分
布
!
!
!
在满足已知事实的情况下的最大熵分布是指数族分布!!!
在满足已知事实的情况下的最大熵分布是指数族分布!!!