18-指数族分布


指数族分布主要是指的一类分布,只需要它们都是满足一种形式即可,比如我们常见的指数族分布有:

  • Guassian 分布
  • Bernoulli 分布 (类别分布)
  • 二项分布 (多项式分布)
  • 泊松分布
  • Beta 分布
  • Dirichlet 分布
  • Gamma 分布
  • Gibbs 分布

1.指数族分布通用形式

p ( x ∣ η ) = h ( x ) e x p [ η T ϕ ( x ) − A ( η ) ] (1) p(x|\eta)=h(x)exp^{[\eta^T\phi(x)-A(\eta)]}\tag{1} p(xη)=h(x)exp[ηTϕ(x)A(η)](1)

  • η : 参 数 向 量 , η , x ∈ R P \eta:参数向量,\eta,x\in \mathbb{R}^P η:η,xRP
  • A ( η ) : log ⁡ ( p a r t i t i o n − f u n c t i o n ( 配 分 函 数 ) A(\eta):\log{(partition-function(配分函数)} A(η):log(partitionfunction()
  • h ( x ) : 只 跟 x 有 关 , 在 处 理 的 时 候 通 常 令 h ( x ) = 1 , 通 常 不 那 么 重 要 h(x):只跟x有关,在处理的时候通常令h(x)=1,通常不那么重要 h(x):xh(x)=1,

1.1 配分函数定义

配分函数来源于统计物理学,在这里其实就是一个归一化因子,它仅仅只是从计算角度来看,为了让 P ( X ∣ θ ) P(X|\theta) P(Xθ)是一个概率分布;让概率密度 p ^ ( x ∣ θ ) \hat{p}(x|\theta) p^(xθ)对x进行积分求和时为1;
我 们 定 义 : p ( x ∣ θ ) = 1 z p ^ ( x ∣ θ ) (2) 我们定义:p(x|\theta)=\frac{1}{z}\hat{p}(x|\theta)\tag{2} p(xθ)=z1p^(xθ)(2)
两 边 同 时 对 x 求 积 分 : ∫ p ( x ∣ θ ) d x = ∫ 1 z p ^ ( x ∣ θ ) d x (3) 两边同时对x求积分:\int p(x|\theta)dx=\int\frac{1}{z}\hat{p}(x|\theta)dx\tag{3} xp(xθ)dx=z1p^(xθ)dx(3)
因 为 : ∫ p ( x ∣ θ ) d x = 1 ; ∫ 1 z p ^ ( x ∣ θ ) d x = 1 z ∫ p ^ ( x ∣ θ ) d x (4) 因为:\int p(x|\theta)dx=1;\int\frac{1}{z}\hat{p}(x|\theta)dx=\frac{1}{z}\int\hat{p}(x|\theta)dx\tag{4} p(xθ)dx=1z1p^(xθ)dx=z1p^(xθ)dx(4)
所 以 : z = ∫ p ^ ( x ∣ θ ) d x (5) 所以:z=\int\hat{p}(x|\theta)dx\tag{5} z=p^(xθ)dx(5)

1.2指数族分布中的配分函数

∵ p ( x ∣ η ) = h ( x ) e x p [ η T ϕ ( x ) − A ( η ) ] \because p(x|\eta)=h(x)exp^{[\eta^T\phi(x)-A(\eta)]} p(xη)=h(x)exp[ηTϕ(x)A(η)]
∴ p ( x ∣ η ) = h ( x ) e x p [ η T ϕ ( x ) ] e x p ( − A ( η ) ) \therefore p(x|\eta)=h(x)exp^{[\eta^T\phi(x)]}exp^{(-A(\eta))} p(xη)=h(x)exp[ηTϕ(x)]exp(A(η))
∴ p ( x ∣ η ) = 1 e x p A ( η ) h ( x ) e x p [ η T ϕ ( x ) ] \therefore p(x|\eta)=\frac{1}{exp^{A(\eta)}}h(x)exp^{[\eta^T\phi(x)]} p(xη)=expA(η)1h(x)exp[ηTϕ(x)]
∴ 我 们 可 以 令 e x p A ( η ) = z ; h ( x ) e x p [ η T ϕ ( x ) ] = p ^ ( x ∣ η ) \therefore 我们可以令exp^{A(\eta)}=z;h(x)exp^{[\eta^T\phi(x)]}=\hat{p}(x|\eta) expA(η)=z;h(x)exp[ηTϕ(x)]=p^(xη)
∴ A ( η ) = log ⁡ z ; 且 z 为 配 分 函 数 。 \therefore A(\eta)=\log z;且z为配分函数。 A(η)=logz;z
A ( η ) = log ⁡ ∫ h ( x ) e x p η T ϕ ( x ) d x (6) A(\eta)=\log {\int h(x)exp^{\eta^T\phi(x)}dx}\tag{6} A(η)=logh(x)expηTϕ(x)dx(6)

2.指数族分布特点

在这里插入图片描述

2.1 充分统计量[人大代表]

由于我们知道指数族分布的一般形式为:
p ( x ∣ η ) = h ( x ) e x p [ η T ϕ ( x ) − A ( η ) ] (7) p(x|\eta)=h(x)exp^{[\eta^T\phi(x)-A(\eta)]}\tag{7} p(xη)=h(x)exp[ηTϕ(x)A(η)](7)

  • ϕ ( x ) \phi(x) ϕ(x):充分统计量

我们定义充分统计量为一个样本的函数,是对样本的加工。如果我们有了统计量,那么我们可以用这个统计量来表达样本的完整的信息。甚至我们可以丢弃掉样本。

举例:

我们定义样本服从高斯分布(Guassian-Distribution),样本数据为: { x 1 , x 2 , . . . , x N } \{x_1,x_2,...,x_N\} {x1,x2,...,xN}

我们令 ϕ ( x ) = ( ∑ i = 1 N x i ∑ i = 1 N x i 2 ) \phi(x)=\begin{pmatrix} \sum_{i=1}^{N}x_i\\\\\sum_{i=1}^{N}x_i^2 \end{pmatrix} ϕ(x)=i=1Nxii=1Nxi2,我们可以用 ϕ ( x ) \phi(x) ϕ(x)来表达高斯分布的 θ = ( μ , Σ ) \theta=(\mu,\Sigma) θ=(μ,Σ),直接用它来生成一个与原分布一样的分布;

它的好处是,我们在机器学习中的Online-Learning(在线学习)非常有用,我们只需要用少量的数据 ϕ ( x ) \phi(x) ϕ(x)就可以表达出样本数据,起到压缩数据的作用。

2.2 共轭

共轭是一种比较方便的方法,其主要思想是假设给定一个似然分布 p ( x ∣ z ) p(x|z) p(xz),且似然具有一个自身共轭的先验 p ( z ) p(z) p(z),那么就会得到 p ( z ) p(z) p(z)与p(z|x)具有相同的分布形式
例:
p ( z ∣ x ) ∝ p ( x ∣ z ) p ( z ) (8) p(z|x) \propto p(x|z)p(z)\tag{8} p(zx)p(xz)p(z)(8)

  • 如 果 p ( x ∣ z ) 与 p ( z ) 共 轭 , 且 p ( z ) 服 从 B e t a 分 布 , 那 么 p ( x ∣ z ) 也 服 从 B e t a 分 布 如果p(x|z)与p(z)共轭,且p(z)服从Beta分布,那么p(x|z)也服从Beta分布 p(xz)p(z)p(z)Betap(xz)Beta

贝叶斯定理:
p ( z ∣ x ) = p ( x ∣ z ) p ( z ) ∫ z p ( x ∣ z ) p ( z ) d z (9) p(z|x)=\frac{p(x|z)p(z)}{\int_z p(x|z)p(z)dz}\tag{9} p(zx)=zp(xz)p(z)dzp(xz)p(z)(9)

  • p ( z ∣ x ) p(z|x) p(zx):后验概率
  • p ( x ∣ z ) p(x|z) p(xz): 似然概率
  • p ( z ) p(z) p(z):先验概率

我们推断的主要问题是积分难的问题,由于我们知道通常情况下 ∫ z p ( x ∣ z ) p ( z ) d z \int_z p(x|z)p(z)dz zp(xz)p(z)dz一般求解不出来的,或者 p ( z ∣ x ) p(z|x) p(zx)形式特别复杂,导致我们很难算出 E p ( z ∣ x ) [ f ( z ) ] \mathbb{E}_{p(z|x)}[f(z)] Ep(zx)[f(z)],为了解决上述问题通常有如下方式:

近似推断:直接来求出后验 p ( z ∣ x ) 和 E p ( z ∣ x ) [ f ( z ) ] p(z|x)和\mathbb{E}_{p(z|x)}[f(z)] p(zx)Ep(zx)[f(z)]

  • 变分
  • MCMC

变分:用一个简单的方式去拟合一个复杂的分布,从而得到关于 p ( z ∣ x ) p(z|x) p(zx)的近似分布形式

采样:蒙特卡洛采样中的序列蒙特卡洛(SMC)与马尔可夫链蒙特卡洛(MCMC)是直接求解 E p ( z ∣ x ) [ f ( z ) ] \mathbb{E}_{p(z|x)}[f(z)] Ep(zx)[f(z)];其主要是用来求解一些不易求积分的问题。

2.3 最大熵(无信息先验)

在给定限制条件下,对未知的部分假设它们是等可能发生的,我们就用最大熵的量化这种等可能性。对于贝叶斯理论来说,我们往往需要给先验p(z)一个分布,常常遵循如下方:

  • 共轭:为了计算方便
  • 最大熵:为了解决无信息先验问题
  • Jerrif.

2.4 广义线性模型

广义线性模型提出来主要是为了解决分类和回归问题,它有三个基本的概念

  • 线性组合: w T x w^Tx wTx
  • 链接函数(Link-Function)—> ( 激 活 函 数 ) − 1 (激活函数)^{-1} ()1;注:激活函数的反函数
  • 指数族分布: y ∣ x ∼ 指 数 族 分 布 y|x\sim指数族分布 yx
    1)线性回归:当假设噪声服从高斯分布时,可以得到 y ∣ x ∼ N ( μ , Σ ) y|x\sim N(\mu,\Sigma) yxN(μ,Σ)
    2)二分类问题:
    2.1) y ∣ x ∼ B e r n o u l l i 分 布 y|x\sim Bernoulli分布 yxBernoulli
    2.2) y ∣ x ∼ P o s s i o n 分 布 y|x\sim Possion分布 yxPossion

2.5 概率图模型

概率图模型中包含如下:

  • 无向图:受限玻尔兹曼机RBM(Restricted Boltzmann Machine)

2.6 变分推断

指数族分布在变分推断中占据了十分重要的地位,如果分布满足指数族分布,那么会让变分推断大大的简化。

3.高斯分布的指数族形式转换

我们需要将高斯分布的密度函数转换成通用指数族分布的形式:
高 斯 : p ( x ∣ μ , σ 2 ) = 1 2 π σ e x p { − ( x − μ ) 2 2 σ 2 } ⟹ 指 数 族 : p ( x ∣ η ) = h ( x ) e x p { [ η T ϕ ( x ) − A ( η ) ] } (10) 高斯:p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}\Longrightarrow 指数族:p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{10} p(xμ,σ2)=2π σ1exp{2σ2(xμ)2}p(xη)=h(x)exp{[ηTϕ(x)A(η)]}(10)

3.1高斯转换详细步骤:

∵ p ( x ∣ μ , σ 2 ) = 1 2 π σ e x p { − ( x − μ ) 2 2 σ 2 } \because p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} p(xμ,σ2)=2π σ1exp{2σ2(xμ)2}

∴ p ( x ∣ μ , σ 2 ) = e x p { − 1 2 log ⁡ ( 2 π σ 2 ) } e x p { − x 2 − 2 x μ + μ 2 2 σ 2 } \therefore p(x|\mu,\sigma^2)=exp\{-\frac{1}{2}\log(2\pi\sigma^2)\}exp\{-\frac{x^2-2x\mu+\mu^2}{2\sigma^2}\} p(xμ,σ2)=exp{21log(2πσ2)}exp{2σ2x22xμ+μ2}

∴ p ( x ∣ μ , σ 2 ) = e x p { − 1 2 σ 2 ( − 2 μ , 1 ) ( x x 2 ) − ( μ 2 2 σ 2 + 1 2 log ⁡ ( 2 π σ 2 ) ) } \therefore p(x|\mu,\sigma^2)=exp\{-\frac{1}{2\sigma^2}(-2\mu,1)\begin{pmatrix} x\\\\x^2 \end{pmatrix}-(\frac{\mu^2}{2\sigma^2}+\frac{1}{2}\log(2\pi\sigma^2))\} p(xμ,σ2)=exp{2σ21(2μ,1)xx2(2σ2μ2+21log(2πσ2))}
∴ p ( x ∣ μ , σ 2 ) = e x p { ( μ σ 2 , − 1 2 σ 2 ) ( x x 2 ) − ( μ 2 2 σ 2 + 1 2 log ⁡ ( 2 π σ 2 ) ) } \therefore p(x|\mu,\sigma^2)=exp\{(\frac{\mu}{\sigma^2},-\frac{1}{2\sigma^2})\begin{pmatrix} x\\\\x^2 \end{pmatrix}-(\frac{\mu^2}{2\sigma^2}+\frac{1}{2}\log(2\pi\sigma^2))\} p(xμ,σ2)=exp{(σ2μ,2σ21)xx2(2σ2μ2+21log(2πσ2))}
我们将上述形式转换成指数族分布可得如下:
η = ( η 1 η 2 ) = ( μ σ 2 − 1 2 σ 2 ) ⟹ η 1 = μ σ 2 ; η 2 = − 1 2 σ 2 \eta=\begin{pmatrix} \eta_1\\\\\eta_2 \end{pmatrix}=\begin{pmatrix} \frac{\mu}{\sigma^2}\\\\-\frac{1}{2\sigma^2} \end{pmatrix}\Longrightarrow \eta_1=\frac{\mu}{\sigma^2};\eta_2=-\frac{1}{2\sigma^2} η=η1η2=σ2μ2σ21η1=σ2μ;η2=2σ21

μ = − η 1 2 η 2 ; σ 2 = − 1 2 η 2 (11) \mu=-\frac{\eta_1}{2\eta_2};\sigma^2=-\frac{1}{2\eta_2}\tag{11} μ=2η2η1;σ2=2η21(11)
我们可以将 A ( η ) = ( μ 2 2 σ 2 + 1 2 log ⁡ ( 2 π σ 2 ) ) 化 简 为 含 η 1 , η 2 的 式 子 : A(\eta)=(\frac{\mu^2}{2\sigma^2}+\frac{1}{2}\log(2\pi\sigma^2))化简为含\eta_1,\eta_2的式子: A(η)=(2σ2μ2+21log(2πσ2))η1,η2
A ( η ) = − η 1 2 4 η 2 + 1 2 log ⁡ ( − π η 2 ) (12) A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})}\tag{12} A(η)=4η2η12+21log(η2π)(12)
综上所述:

指数族分布形式:
p ( x ∣ η ) = h ( x ) e x p { [ η T ϕ ( x ) − A ( η ) ] } (13) p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{13} p(xη)=h(x)exp{[ηTϕ(x)A(η)]}(13)
h ( x ) = 1 (13) h(x)=1\tag{13} h(x)=1(13)
η = ( μ σ 2 − 1 2 σ 2 ) (13) \eta=\begin{pmatrix} \frac{\mu}{\sigma^2}\\\\-\frac{1}{2\sigma^2} \end{pmatrix}\tag{13} η=σ2μ2σ21(13)
ϕ ( x ) = ( x x 2 ) (13) \phi(x)=\begin{pmatrix} x\\\\x^2 \end{pmatrix}\tag{13} ϕ(x)=xx2(13)
A ( η ) = − η 1 2 4 η 2 + 1 2 log ⁡ ( − π η 2 ) (13) A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})}\tag{13} A(η)=4η2η12+21log(η2π)(13)

4.对数配分函数 A ′ ( η ) , A ′ ′ ( η ) A'(\eta),A''(\eta) A(η),A(η)

我们已知指数族分布的一般形式为:
p ( x ∣ η ) = h ( x ) e x p { [ η T ϕ ( x ) − A ( η ) ] } (14) p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{14} p(xη)=h(x)exp{[ηTϕ(x)A(η)]}(14)
步骤如下:

p ( x ∣ η ) = 1 e x p { A ( η ) } h ( x ) e x p { [ η T ϕ ( x ) ] } p(x|\eta)=\frac{1}{exp\{A(\eta)\}}h(x)exp\{[\eta^T\phi(x)]\} p(xη)=exp{A(η)}1h(x)exp{[ηTϕ(x)]}

两边对x进行积分

∫ p ( x ∣ η ) d x = ∫ 1 e x p { A ( η ) } h ( x ) e x p { [ η T ϕ ( x ) ] } d x = 1 \int p(x|\eta)dx=\int \frac{1}{exp\{A(\eta)\}}h(x)exp\{[\eta^T\phi(x)]\}dx=1 p(xη)dx=exp{A(η)}1h(x)exp{[ηTϕ(x)]}dx=1

因为: ∫ p ( x ∣ η ) d x = 1 , 并 整 理 上 式 可 得 : \int p(x|\eta)dx=1,并整理上式可得: p(xη)dx=1,

∫ h ( x ) e x p { [ η T ϕ ( x ) ] } d x = e x p { A ( η ) } \int h(x)exp\{[\eta^T\phi(x)]\}dx=exp\{A(\eta)\} h(x)exp{[ηTϕ(x)]}dx=exp{A(η)}

等式两边对 η \eta η求导可得:

∫ h ( x ) e x p { [ η T ϕ ( x ) ] } ϕ ( x ) d x = e x p { A ( η ) } A ′ ( η ) \int h(x)exp\{[\eta^T\phi(x)]\}\phi(x)dx=exp\{A(\eta)\}A'(\eta) h(x)exp{[ηTϕ(x)]}ϕ(x)dx=exp{A(η)}A(η)

整理上式可得:

A ′ ( η ) = ∫ h ( x ) e x p { [ η T ϕ ( x ) ] } ϕ ( x ) d x e x p { A ( η ) } = ∫ h ( x ) e x p { η T ϕ ( x ) − A ( η ) } ϕ ( x ) d x = E p ( x ∣ η ) [ ϕ ( x ) ] A'(\eta)=\frac{\int h(x)exp\{[\eta^T\phi(x)]\}\phi(x)dx}{exp\{A(\eta)\}}=\int h(x)exp\{\eta^T\phi(x)-A(\eta)\}\phi(x)dx=\mathbb{E}_{p(x|\eta)}[\phi(x)] A(η)=exp{A(η)}h(x)exp{[ηTϕ(x)]}ϕ(x)dx=h(x)exp{ηTϕ(x)A(η)}ϕ(x)dx=Ep(xη)[ϕ(x)]

结论:
A ′ ( η ) = E x ∼ p ( x ∣ η ) [ ϕ ( x ) ] (15) A'(\eta)=\mathbb{E}_{x\sim p(x|\eta)}[\phi(x)]\tag{15} A(η)=Exp(xη)[ϕ(x)](15)
A ′ ′ ( η ) = V a r x ∼ p ( x ∣ η ) [ ϕ ( x ) ] (16) A''(\eta)=\mathbb{Var}_{x\sim p(x|\eta)}[\phi(x)]\tag{16} A(η)=Varxp(xη)[ϕ(x)](16)
注:由于 A ′ ′ ( η ) = V a r x ∼ p ( x ∣ η ) [ ϕ ( x ) ] , 且 V a r x ∼ p ( x ∣ η ) [ ϕ ( x ) ] ≥ 0 ; 所 以 A ′ ′ ( η ) ≥ 0 ; 故 为 凸 函 数 A''(\eta)=\mathbb{Var}_{x\sim p(x|\eta)}[\phi(x)],且\mathbb{Var}_{x\sim p(x|\eta)}[\phi(x)]\geq0;所以A''(\eta)\geq0;故为凸函数 A(η)=Varxp(xη)[ϕ(x)]Varxp(xη)[ϕ(x)]0;A(η)0;

4.1用高斯分布验证

由前面我们的推断高斯密度函数中得到公式<13>
指数族分布形式:
p ( x ∣ η ) = h ( x ) e x p { [ η T ϕ ( x ) − A ( η ) ] } (13) p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{13} p(xη)=h(x)exp{[ηTϕ(x)A(η)]}(13)
h ( x ) = 1 (13) h(x)=1\tag{13} h(x)=1(13)
η = ( μ σ 2 − 1 2 σ 2 ) (13) \eta=\begin{pmatrix} \frac{\mu}{\sigma^2}\\\\-\frac{1}{2\sigma^2} \end{pmatrix}\tag{13} η=σ2μ2σ21(13)
ϕ ( x ) = ( x x 2 ) (13) \phi(x)=\begin{pmatrix} x\\\\x^2 \end{pmatrix}\tag{13} ϕ(x)=xx2(13)
A ( η ) = − η 1 2 4 η 2 + 1 2 log ⁡ ( − π η 2 ) (13) A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})}\tag{13} A(η)=4η2η12+21log(η2π)(13)
那么我们求:
E [ ϕ ( x ) ] = ( E [ x ] E [ x 2 ] ) \mathbb{E}[\phi(x)]=\begin{pmatrix} \mathbb{E}[x]\\\\\mathbb{E}[x^2] \end{pmatrix} E[ϕ(x)]=E[x]E[x2]
又因为, A ′ [ η 1 ] = E [ ϕ ( x 1 ) ] ; 且 E [ ϕ ( x 1 ) ] = E [ x 1 ] = μ A'[\eta_1]=\mathbb{E}[\phi(x_1)];且\mathbb{E}[\phi(x_1)]= \mathbb{E}[x_1]=\mu A[η1]=E[ϕ(x1)];E[ϕ(x1)]=E[x1]=μ

那么我们就验证 A ′ [ η 1 ] 是 否 等 于 μ A'[\eta_1]是否等于\mu A[η1]μ

∵ A ( η ) = − η 1 2 4 η 2 + 1 2 log ⁡ ( − π η 2 ) \because A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})} A(η)=4η2η12+21log(η2π)

η 1 求 偏 导 可 得 : \eta_1求偏导可得: η1

A ′ [ η 1 ] = − η 1 2 η 2 A'[\eta_1]=-\frac{\eta_1}{2\eta_2} A[η1]=2η2η1

η 1 = μ σ 2 ; η 2 = − 1 2 σ 2 \eta_1=\frac{\mu}{\sigma^2};\eta_2=-\frac{1}{2\sigma^2} η1=σ2μ;η2=2σ21代入上式可得:

A ′ [ η 1 ] = μ A'[\eta_1]=\mu A[η1]=μ

故 A ′ ( η ) = E x ∼ p ( x ∣ η ) [ ϕ ( x ) ] 成 立 故A'(\eta)=\mathbb{E}_{x\sim p(x|\eta)}[\phi(x)]成立 A(η)=Exp(xη)[ϕ(x)]

5.极大似然估计

我们定义一组数据集: D = { x 1 , x 2 , . . . , x N } D=\{x_1,x_2,...,x_N\} D={x1,x2,...,xN},我们要求极大似然估计 η M L E \eta_{MLE} ηMLE

已知:
η M L E = a r g m a x log ⁡ ∏ i = 1 N p ( x i ∣ η ) (14) \eta_{MLE}=argmax \log \prod_{i=1}^{N}p(x_i|\eta)\tag{14} ηMLE=argmaxlogi=1Np(xiη)(14)
p ( x i ∣ η ) = h ( x i ) e x p [ η T ϕ ( x i ) − A ( η ) ] (15) p(x_i|\eta)=h(x_i)exp^{[\eta^T\phi(x_i)-A(\eta)]}\tag{15} p(xiη)=h(xi)exp[ηTϕ(xi)A(η)](15)

详解:

∵ η M L E = a r g m a x log ⁡ ∏ i = 1 N h ( x i ) e x p [ η T ϕ ( x i ) − A ( η ) ] \because \eta_{MLE}=argmax \log \prod_{i=1}^{N}h(x_i)exp^{[\eta^T\phi(x_i)-A(\eta)]} ηMLE=argmaxlogi=1Nh(xi)exp[ηTϕ(xi)A(η)]

∴ η M L E = a r g m a x ∑ i = 1 N log ⁡ [ h ( x i ) e x p [ η T ϕ ( x i ) − A ( η ) ] ] \therefore \eta_{MLE}=argmax \sum_{i=1}^{N}\log [h(x_i)exp^{[\eta^T\phi(x_i)-A(\eta)]}] ηMLE=argmaxi=1Nlog[h(xi)exp[ηTϕ(xi)A(η)]]

∴ η M L E = a r g m a x ∑ i = 1 N [ log ⁡ [ h ( x i ) ] + [ η T ϕ ( x i ) − A ( η ) ] ] \therefore \eta_{MLE}=argmax \sum_{i=1}^{N}[\log [h(x_i)]+{[\eta^T\phi(x_i)-A(\eta)]}] ηMLE=argmaxi=1N[log[h(xi)]+[ηTϕ(xi)A(η)]]

∵ h ( x i ) 与 η M L E 无 关 , 所 以 在 后 续 求 偏 导 中 为 零 , 可 以 忽 略 。 \because h(x_i)与\eta_{MLE}无关,所以在后续求偏导中为零,可以忽略。 h(xi)ηMLE

∴ η M L E = a r g m a x ∑ i = 1 N [ η T ϕ ( x i ) − A ( η ) ] \therefore \eta_{MLE}=argmax \sum_{i=1}^{N}{[\eta^T\phi(x_i)-A(\eta)}] ηMLE=argmaxi=1N[ηTϕ(xi)A(η)]

求偏导可得:

∴ ∂ η M L E ∂ η = a r g m a x ∑ i = 1 N [ ϕ ( x i ) − A ′ ( η ) ] = 0 \therefore \frac{\partial \eta_{MLE}}{\partial \eta}=argmax \sum_{i=1}^{N}[\phi(x_i)-A'(\eta)]=0 ηηMLE=argmaxi=1N[ϕ(xi)A(η)]=0

∴ A ′ ( η M L E ) = 1 N ∑ i = 1 N ϕ ( x i ) \therefore A'(\eta_{MLE})=\frac{1}{N}\sum_{i=1}^{N}\phi(x_i) A(ηMLE)=N1i=1Nϕ(xi)

注 : A ′ ( η M L E ) 为 η M L E 的 函 数 , 所 以 , 我 们 可 以 通 过 反 解 A ′ ( η M L E ) 求 解 η M L E 注:A'(\eta_{MLE})为\eta_{MLE}的函数,所以,我们可以通过反解A'(\eta_{MLE})求解\eta_{MLE} A(ηMLE)ηMLEA(ηMLE)ηMLE

结 论 : 对 于 求 解 η M L E 时 , 我 们 只 需 要 求 解 1 N ∑ i = 1 N ϕ ( x i ) 即 可 , 不 需 要 保 留 整 个 样 本 。 神 奇 ! 结论:对于求解\eta_{MLE}时,我们只需要求解\frac{1}{N}\sum_{i=1}^{N}\phi(x_i)即可,不需要保留整个样本。神奇! ηMLEN1i=1Nϕ(xi)

6.最大熵原理

6.1在无信息先验下最大熵分布为均匀分布

熵的定义:用来衡量信息反映的信息量的多少的单位;一个系统越有序,信息熵越低,一个系统越无序,信息熵越高。
我们定义一个随机变量发生的概率为p,那么它的信息量为 − log ⁡ p -\log p logp;比如说当p=1时,那么这个系统已经确定了,所以它的信息量为0;

熵的为信息量 − log ⁡ p -\log p logp关于分布p(x)的期望:
熵 = E p ( x ) [ − log ⁡ p ] = ∫ − p ( x ) log ⁡ p ( x ) d x = − ∑ x p ( x ) log ⁡ p ( x ) = (16) 熵=\mathbb{E}_{p(x)}[-\log p]=\int -p(x)\log p(x)dx=-\sum_{x}p(x)\log p(x)=\tag{16} =Ep(x)[logp]=p(x)logp(x)dx=xp(x)logp(x)=(16)
最大熵的就是让一个分布尽最大可能满足等可能性,这里我们先讨论没有任何约束条件下的最大熵;
H ( x ) = − ∑ x p ( x ) log ⁡ p ( x ) (17) H(x)=-\sum_{x}p(x)\log p(x)\tag{17} H(x)=xp(x)logp(x)(17)
我们定义分布满足如下:
在这里插入图片描述

由上表可得 ∑ i = 1 N p i = 1 \sum_{i=1}^{N}p_i=1 i=1Npi=1

我们的目标是求在满足条件 ∑ i = 1 N p i = 1 \sum_{i=1}^{N}p_i=1 i=1Npi=1的情况下,要求 H ( x ) H(x) H(x)的最大值;用数学表达如下:
a r g m a x H ( X ) = a r g m a x [ − ∑ x p ( x ) log ⁡ p ( x ) ] = a r g m i m [ ∑ x p ( x ) log ⁡ p ( x ) ] (18) argmax H(X)=argmax[-\sum_{x}p(x)\log p(x)]=argmim[\sum_{x}p(x)\log p(x)]\tag{18} argmaxH(X)=argmax[xp(x)logp(x)]=argmim[xp(x)logp(x)](18)
s . t : ∑ i = 1 N p i = 1 (18) s.t:\sum_{i=1}^{N}p_i=1\tag{18} s.ti=1Npi=1(18)
注 : p = ( p 1 , p 2 , . . . , p N ) T 注:p=(p_1,p_2,...,p_N)^T p=(p1,p2,...,pN)T

将上述带约束问题的极值问题转换成拉格朗日乘子式可得:
L ( p , λ ) = ∑ i = 1 N p ( x i ) log ⁡ p ( x i ) + λ ( 1 − ∑ i = 1 N p ( x i ) ) (19) L(p,\lambda)=\sum_{i=1}^{N}p(x_i)\log p(x_i)+\lambda(1-\sum_{i=1}^{N}p(x_i))\tag{19} L(p,λ)=i=1Np(xi)logp(xi)+λ(1i=1Np(xi))(19)
令 : ∂ L ( p , λ ) ∂ p ( x i ) = 0 (20) 令:\frac{\partial L(p,\lambda)}{\partial p(x_i)}=0\tag{20} p(xi)L(p,λ)=0(20)
∂ L ( p , λ ) ∂ p ( x i ) = log ⁡ p ( x i ) + 1 − λ = 0 (21) \frac{\partial L(p,\lambda)}{\partial p(x_i)}=\log p(x_i)+1-\lambda=0\tag{21} p(xi)L(p,λ)=logp(xi)+1λ=0(21)
解得:
p ^ ( x i ) = e x p { λ − 1 } \hat{p}{(x_i)}=exp\{\lambda-1\} p^(xi)=exp{λ1}
因为 λ \lambda λ为常数,所以我们可以得到如下:
p 1 ^ = p 2 ^ = . . . = p N ^ = 1 k (22) \hat{p_1}=\hat{p_2}=...=\hat{p_N}=\frac{1}{k}\tag{22} p1^=p2^=...=pN^=k1(22)
结论:由此可得:当在无任何约束条件下的分布,如果要满足最大熵条件,那这个分布是均匀分布。

6.2满足已知事实的情况下的最大熵分布是指数族分布

已知:指数族分布的概率密度函数如下:
p ( x i ∣ η ) = h ( x i ) e x p [ η T ϕ ( x i ) − A ( η ) ] (23) p(x_i|\eta)=h(x_i)exp{[\eta^T\phi(x_i)-A(\eta)]}\tag{23} p(xiη)=h(xi)exp[ηTϕ(xi)A(η)](23)
为了方便计算可简化成如下:
p ( x i ∣ η ) = 1 Z ( η ) h ( x i ) e x p [ η T ϕ ( x i ) ] (24) p(x_i|\eta)=\frac{1}{Z(\eta)}h(x_i)exp{[\eta^T\phi(x_i)]}\tag{24} p(xiη)=Z(η)1h(xi)exp[ηTϕ(xi)](24)
经验分布就是指的是一个已经发生的事实的一组数据;现在的问题是怎样用数学的方式来表达一个既定事实。
我们先定义一组基本数据集 D = { x 1 , x 2 , . . . , x N } D=\{x_1,x_2,...,x_N\} D={x1,x2,...,xN}

经验分布的概率密度函数:

P ^ ( X = x ) = p ^ ( x ) = c o u n t ( x ) N (25) \hat{P}(X=x)=\hat{p}(x)=\frac{count(x)}{N}\tag{25} P^(X=x)=p^(x)=Ncount(x)(25)

  • c o u n t ( x ) : 表 示 发 生 X = x 事 件 的 个 数 count(x):表示发生X=x事件的个数 count(x):X=x
  • p ^ ( x ) 是 指 X = x 发 生 的 概 率 大 小 \hat{p}(x)是指X=x发生的概率大小 p^(x)X=x
    有了概率大小,有了x值,那么我们就能根据期望和方差的定义求出 E p ^ [ x ] , D p ^ [ x ] \mathbb{E}_{\hat{p}}[x],\mathbb{D}_{\hat{p}}[x] Ep^[x],Dp^[x],我们假设存在任意一组映射满足 y i = f i x y_i=f_i{x} yi=fix,即:
    f ( x ) = ( f 1 ( x ) f 2 ( x ) ⋮ f Q ( x ) ) (26) f(x)=\begin{pmatrix} f_1(x)\\f_2(x)\\\vdots\\f_Q(x) \end{pmatrix}\tag{26} f(x)=f1(x)f2(x)fQ(x)(26)
    由于我们知道了 E p ^ [ x ] , D p ^ [ x ] \mathbb{E}_{\hat{p}}[x],\mathbb{D}_{\hat{p}}[x] Ep^[x],Dp^[x],那么我们肯定求得如下值:
    E p ^ [ f ( x i ) ] = △ i ; 注 : △ i 是 已 知 事 实 (27) \mathbb{E}_{\hat{p}}[f(x_i)]=\triangle_i;注:\triangle_i是已知事实\tag{27} Ep^[f(xi)]=i;i(27)
    △ i = ( △ 1 △ 2 ⋮ △ Q ) (28) \triangle_i= \begin{pmatrix} \triangle_1\\\triangle_2\\\vdots\\\triangle_Q \end{pmatrix}\tag{28} i=12Q(28)
    且我们知道最大熵H(x)可表示如下:
    H ( x ) = − ∑ x p ( x ) log ⁡ p ( x ) (29) H(x)=-\sum_{x}p(x)\log p(x)\tag{29} H(x)=xp(x)logp(x)(29)
    以上的最大值约束问题我们用拉格朗日乘子法转换成优化问题:

原始模型:
目 标 函 数 : a r g m i n ∑ x p ( x ) log ⁡ p ( x ) (30) 目标函数:argmin\sum_{x}p(x)\log p(x)\tag{30} argminxp(x)logp(x)(30)
约 束 条 件 ( 1 ) : ∑ i = 1 N p ( x ) = 1 (31) 约束条件(1):\sum_{i=1}^{N}p(x)=1\tag{31} (1)i=1Np(x)=1(31)
约 束 条 件 ( 2 ) : E p [ f ( x ) ] = E p ^ [ f ( x ) ] = △ (32) 约束条件(2):\mathbb{E}_p[f(x)]=\mathbb{E}_{\hat{p}}[f(x)]=\triangle\tag{32} (2)Ep[f(x)]=Ep^[f(x)]=(32)

用拉格朗日乘子法来求带约束的方程的极值:
L ( p , λ , λ 0 ) = ∑ i = 1 N p ( x i ) log ⁡ p ( x i ) + λ 0 ( 1 − ∑ i = 1 N p ( x i ) ) + λ T ( △ − E p [ f ( x ) ] ) (33) L(p,\lambda,\lambda_0)=\sum_{i=1}^{N}p(x_i)\log p(x_i)+\lambda_0(1-\sum_{i=1}^{N}p(x_i))+\lambda^T(\triangle-\mathbb{E}_{p}[f(x)])\tag{33} L(p,λ,λ0)=i=1Np(xi)logp(xi)+λ0(1i=1Np(xi))+λT(Ep[f(x)])(33)
注: E p ^ [ f ( x ) ] ) = ∑ x p ( x ) f ( x ) ; ∂ E p ^ [ f ( x ) ] ) ∂ p ( x ) = f ( x ) \mathbb{E}_{\hat{p}}[f(x)])=\sum_{x}p(x)f(x);\frac{\partial \mathbb{E}_{\hat{p}}[f(x)]) }{\partial p(x)}=f(x) Ep^[f(x)])=xp(x)f(x);p(x)Ep^[f(x)])=f(x)

L ( p , λ , λ 0 ) 对 p ( x i ) 求 偏 导 可 得 : L(p,\lambda,\lambda_0)对p(x_i)求偏导可得: L(p,λ,λ0)p(xi)

令 : ∂ L ( p , λ , λ 0 ) ∂ p ( x i ) = 0 (34) 令:\frac{\partial L(p,\lambda,\lambda_0) }{\partial p(x_i)}=0\tag{34} p(xi)L(p,λ,λ0)=0(34)

由于我们是对N个中的 X = x i X=x_i X=xi进行求导,所以其他项为常数,其倒数为零;

log ⁡ p ( x i ) + 1 − λ 0 − λ T f ( x i ) = 0 (35) \log p(x_i)+1-\lambda_0-\lambda^Tf(x_i)=0\tag{35} logp(xi)+1λ0λTf(xi)=0(35)
p ^ ( x i ) = e x p { λ T f ( x i ) − ( λ 0 − 1 ) } (36) \hat{p}(x_i)=exp\{\lambda^Tf(x_i)-(\lambda_0-1)\}\tag{36} p^(xi)=exp{λTf(xi)(λ01)}(36)
上式是不是很想我们通用的指数族分布:
p ( x i ∣ η ) = h ( x i ) e x p [ η T ϕ ( x i ) − A ( η ) ] (37) p(x_i|\eta)=h(x_i)exp{[\eta^T\phi(x_i)-A(\eta)]}\tag{37} p(xiη)=h(xi)exp[ηTϕ(xi)A(η)](37)
<36>式类比于<37>中的 h ( x i ) = 1 ; η = λ ; A ( η ) = λ 0 − 1 h(x_i)=1;\eta=\lambda;A(\eta)=\lambda_0-1 h(xi)=1η=λ;A(η)=λ01

结论:
在 满 足 已 知 事 实 的 情 况 下 的 最 大 熵 分 布 是 指 数 族 分 布 ! ! ! 在满足已知事实的情况下的最大熵分布是指数族分布!!!

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值