最大熵模型

1. 极大似然估计在机器学习中的应用
  1. 有监督学习中要求的是标签下的条件概率,极大似然学习的是概率分布 P ,可把P看作是条件概率,使用极大似然,得到概率模型
    • 应用模型:最大熵模型
  2. 无监督学习中,标签不知道,只能在推导中使用极大似然估计的过程
    • 应用:EM算法(GMM模型)
2. 熵

熵是平均不确定性的独立,函数到值的映射(泛函)
1. 平均互信息量(衡量确定性):

I(X,Y)=H(X)H(X|Y)=H(Y)H(Y|X)

2. 交叉熵(不确定性,非对称):
H(X;Y)=H(X)+KL(X||Y)=I(X,Y)+H(X|Y)+KL(X||Y)

3. KL散度(不确定性,非对称):
KL(X||Y)=H(X;Y)H(X)

4. 条件熵和KL散度最小时,平均互信息量最大

3. 最大熵模型推导
  1. 最大熵原理:承认已知事物,对未知事物不做任何假设,没有偏见,最大熵存在且唯一(凸优化)
  2. 模型一般形式(在约束条件下求条件熵最大化)
    minPCH(P)=H(Y|X)=x,yP(x)P(y|x)logP(y|x)
    s.t.Ep(fi)=Ep¯(fi)
    yP(y|x)=1
    其中 Ep¯(fi)=x,yp(x,y)fi(x,y) fi 为特征,当 x,y 满足特征条件, fi(x,y)=1 ,否则为0
  3. 写成拉格朗日形式:
    L(P,w)=H(P)+w0(1yP(y|x))+i=1nwi(Ep¯(fi)Ep(fi))=x,yP¯(x)P(y|x)logP(y|x)+w0(1yP(y|x))+j=1nwi(x,yP¯(x,y)fi(x,y)x,yP¯(x)P(y|x)fi(x,y))
  4. 原问题和对偶问题:
    minPCmaxwL(P,w)
    maxwminPCL(P,w)
    :φ=minPCL(P,w)=L(Pw,w)
  5. P(y|x) 求偏导数,令其为0,得到条件概率分布 Pw(y|x) ,之后求 w ,得到最大熵模型
    P(y|x)=exp(i=1nwifi(x,y)+w01)=exp(wifi(x,y))exp(1w0)
    :Pw(y|x)=1Zexp(wifi(x,y))
    Z=yexp(wifi(x,y))
  6. 最大熵模型中的 φ(w) 等价于最大熵模型的极大似然估计,两者可以相互证明其有效性
  7. 最大熵模型的优缺点
    优点:
    (1)建模时,试验者只需集中精力选择特征,而不需要花费精力考虑如何使用这些特征。
    (2)特征选择灵活,且不需要额外的独立假定或者内在约束。
    (3)模型应用在不同领域时的可移植性强。
    (4)可结合更丰富的信息。
    缺点:
    (1)时空开销大
    (2)数据稀疏问题严重
    (3)对语料库的依赖性较强
  8. 最大熵模型的应用
    词性标注、短语识别、指代消解、语法分析、机器翻译、文本分类、问题回答、语言模型
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值