指数族分布和最大熵模型

常见的指数族分布:

  • 高斯分布
  • 伯努利分布
  • 二项分布
  • 柏松分布
  • beta分布
  • gamma分布
    基本形式:
    p ( x ∣ η ) = h ( x ) e x p [ η T ϕ ( x ) − A ( η ) ] p(x|\eta)=h(x)exp[\eta^T\phi(x)-A(\eta)] p(xη)=h(x)exp[ηTϕ(x)A(η)]
    其中:
    η 是 参 数 向 量 \eta 是参数向量 η
    A ( η ) A(\eta) A(η):配分函数,也叫归一化因子
    ϕ ( x ) \phi(x) ϕ(x): 充分统计量

最大熵原理是概率模型学习的一个准则.
最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型
信息量公式
I ( x ) = log ⁡ 1 p ( x ) = − log ⁡ p ( x ) I(x)=\log\frac{1}{p(x)}=-\log p(x) I(x)=logp(x)1=logp(x)
信息熵是信息量的期望
H ( x ) = E [ I ( x ) ] = − ∑ p ( x ) log ⁡ p ( x ) H(x)=E[I(x)]=-\sum p(x)\log p(x) H(x)=E[I(x)]=p(x)logp(x)
求最大熵也就是求下列优化问题:
m a x ( H ( x ) ) = m a x ( − ∑ p ( x ) log ⁡ p ( x ) ) max(H(x))=max(-\sum p(x)\log p(x)) max(H(x))=max(p(x)logp(x))
s . t . ∑ p ( x ) = 1 s.t. \quad \sum p(x)=1 s.t.p(x)=1
为了应用拉格朗日公式,原式等价于:
m i n ( ∑ p ( x ) log ⁡ p ( x ) ) min(\sum p(x)\log p(x)) min(p(x)logp(x))
s . t . ∑ p ( x ) = 1 s.t. \quad \sum p(x)=1 s.t.p(x)=1
应用拉格朗日公式有:
L ( p ( x ) , λ ) = ∑ p ( x ) log ⁡ p ( x ) + λ ( 1 − ∑ p ( x ) ) L(p(x),\lambda)=\sum p(x)\log p(x)+\lambda(1-\sum p(x)) L(p(x),λ)=p(x)logp(x)+λ(1p(x))
求最大的p(x)有,对p(x)求导,并令公式等于0有:
∂ L ∂ p ( x ) = log ⁡ p ( x ) + p ( x ) . 1 p ( x ) − λ = 0 \frac{\partial L}{\partial p(x)}=\log p(x)+p(x).\frac{1}{p(x)}-\lambda=0 p(x)L=logp(x)+p(x).p(x)1λ=0
也就是
p ( x ) = e x p ( λ − 1 ) p(x)=exp(\lambda-1) p(x)=exp(λ1)
由于 λ \lambda λ是常数,所以当p(x)是常数的时候,熵最大,也就是均匀分布的时候

最大熵模型:
最大熵模型相比最大熵原理,多了一个条件:
满足已知事实的约束
那么已知的事实就是样本
令 d a t a = { x 1 , x 2 , . . . , x n } 令data=\{x_1,x_2,...,x_n\} data={x1,x2,...,xn}
样本的概率为
p ^ ( X = x i ) = c o u n t ( x i ) n \hat p(X=x_i)=\displaystyle \frac{count(x_i)}{n} p^(X=xi)=ncount(xi)
其中 c o u n t ( x i ) count(x_i) count(xi)表示样本中是 x i x_i xi的数量,n是样本个数
知道了每种样本的概率,也就知道了样本的期望值
用样本期望近似原函数期望,用f(x)表示x的函数向量,最优化问题可以描述为:
m i n ( ∑ p ( x ) log ⁡ p ( x ) ) min(\sum p(x)\log p(x)) min(p(x)logp(x))
s . t . ∑ p ( x ) = 1 s.t. \quad \sum p(x)=1 s.t.p(x)=1
s . t . E p [ f ( x ) ] = E p ^ [ f ( x ) ] = δ s.t. \quad E_p[f(x)]=E_{\hat p}[f(x)]=\delta s.t.Ep[f(x)]=Ep^[f(x)]=δ
拉格朗日方程为:
L ( p ( x ) , λ , v ) = ∑ p ( x ) log ⁡ p ( x ) + λ ( 1 − ∑ p ( x ) ) + v T ( δ − E p ^ [ f ( x ) ] ) L(p(x),\lambda,v)=\sum p(x)\log p(x)+\lambda(1-\sum p(x))+v^T(\delta-E_{\hat p}[f(x)]) L(p(x),λ,v)=p(x)logp(x)+λ(1p(x))+vT(δEp^[f(x)])
对p(x)求导有:
∂ L ∂ p ( x ) = ∑ ( log ⁡ p ( x ) + 1 − λ − v T f ( x ) ) = 0 \frac{\partial L}{\partial p(x)}=\sum(\log p(x)+1-\lambda-v^Tf(x))=0 p(x)L=(logp(x)+1λvTf(x))=0
log ⁡ p ( x ) = v T f ( x ) + λ − 1 \log p(x)=v^Tf(x)+\lambda -1 logp(x)=vTf(x)+λ1
p ( x ) = e x p { v T f ( x ) + λ − 1 } = e x p { v T f ( x ) − ( 1 − λ ) } p(x)=exp\{ v^Tf(x)+\lambda -1 \}=exp\{ v^Tf(x)-(1-\lambda )\} p(x)=exp{vTf(x)+λ1}=exp{vTf(x)(1λ)}
可以看到最大熵模型的概率分布满足指数族分布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值