机器学习笔记_ 最大熵模型

熵的概念

  • 引例:
    如果随机变量x的可能取值为 X=x1,x2,...,xk 。若用n位的y: y1,,yn(yc) 表示,则n的取值期望。

    i=1kp(x=xi)log1p(x=xi)logc


  • 熵: H(X)=xXp(x)lnp(x) = >单位nat(奈特)
    - 熵是不确定性的度量
    - 随机变量退化为定值,熵是0
    - 均匀分布熵最大
    - 0H(x)log|x|

  • 联合熵: H(X,Y)

  • 条件熵: H(X|Y)=H(X,Y)H(Y)
  • 相对熵 (KL散度): D(p||q)=xp(x)logp(x)q(x)
    - 度量两个随机变量的距离
    - D(p||q)D(q||p)

  • 互信息: I(X,Y)=D(P(X,Y)||P(X)P(Y))=x,yp(x,y)logp(x,y)p(x)p(y)

  • Venn
    这里写图片描述


最大熵原理

  • 承认已知事物(知识)
  • 对未知事物不做任何假设,没有偏见

  • 最大熵: 计算X和Y的分布,使得H(Y|X)最大

  • 一般形式

    maxpPH(Y|X)=(x,y)p(x,y)logp(y|x)
    p是X上满足条件的概率分布


最大熵模型

  • 特征: (x,y)->(特征的上下文,特征的确定信息)->(“花”,”flower”),(“花”,”spend”)
  • 样本:已知
    < p¯(x)=x >;
    < p¯(xy)=xy >;
    < p¯(f)=f >
  • 特征函数: 对于 (x0,y0) ->定义特征函数: f(x,y)={1x=x0y=y00otherwise
  • 对于特征 (x0,y0) ,其样本中的期望值是 p¯(f)=(xi,yi)p¯(x,y)f(x,y)

*条件

  1. 特征函数和经验分布 p¯(X,Y)p¯(f)=x,yp¯(x,y)f(x,y)

  2. 特征函数和模型p(Y|X)与经验分布 p¯(X) 的期望值
    p(f)=(xi,yi)p(xi,yi)f(xi,yi)
    =(xi,yi)p(yi|xi)p(xi)f(xi,yi)
    =(xi,yi)p¯(yi|xi)p(xi)f(xi,yi)

  3. 若模型能获得训练数据中的信息,则两个期望相等<理论模型的分布应该与样本的分布一致>
    p(f)=p¯(f)


  • 转换为

-目标函数:

p=argmaxpPH(Y|X)=(x,y)p(x,y)logp(x,y)
=(x,y)p(y|x)p¯(x)logp(y|x)

约束:

yYp(y|x)=1

E(fi)=E¯(fi)


解优化

过程省略

结果:

p(y|x)=1exp(1λ0)exp(iλifi(x,y))


  • 最大熵和logistc的多分类情况softmax具有相同的目标函数
  • 均以似然函数为目标函数的最优化问题
  • 最大熵的解和最大似然的解一致,具有相同的目标函数
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值