熵学习笔记

H(x)=\sum p(x)log_{_{a}}p(x),由Y^{n}\geq X推出

1.定义熵是随机变量不确定性的度量,不确定性越大,熵值越大,若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布

熵是定义了一个函数到一个值的映射。定义域是函数集,值域是值。有点泛函。

H(x)=\sum p(x)ln(p(x)),举个例子,如果是两点分布的时候,如果某个点概率为0或为1,则为确定分布,熵为0,均匀分布的时候熵为最大。  

2.联合熵

联合分布的熵,H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y)

3.条件熵

Y发生的前提下,X发生的熵 ,H(X,Y)-H(Y)=-\sum p(x,y)logp(x|y)=H(X|Y)

4.相对熵(又称互熵、交叉熵、鉴别信息、Kullback熵、Kullback-Leible散度等)

p(x),q(x)是X中取值的两个概率分布,则p对q的相对熵是

D(p||q)=-\sum_{a}p(x)log\frac{p(x)}{q(x)}=-E_{p(x)}log\frac{p(x)}{q(x)}

5.互信息

定义为,X,Y的联合分布和独立分布乘积的相对熵

I(X,Y)=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}

H(X)-I(X,Y)=H(X|Y),而 H(X|Y)= H(X,Y)-H(Y),得出I(X,Y)=H(X)+H(Y)-H(X,Y)

再根据对偶H(Y|X) = H(X,Y)-H(X)=H(Y)-I(X,Y)

H(X|Y)\leq H(X),H(Y|X)\leq H(Y)(给定一定条件后,就变得更确定,熵会更小)

6.最大熵模型的条件

承认已知,没有偏见。概率平均分布等价于熵最大。maxH(X|Y)= \sum p(x,y)logp(x|y)。给定均值和方差的话,则正太分布的熵最大。

7.特征和样本

(x,y)。y:这个特征中需要确定的信息;x:这个特征汇总的上下文信息

样本:关于某个特征的样本,特征所描述的语法现象在标准集合里的分布 (xi,yi),xi是yi的上下文,yi是xi的实例。

特征函数:对于一个特征(x0,y0),则这个点值为1,其他值为0;

最大熵(条件熵)模型在NLP中的完整提法:NLP(自然语言处理)模型:p^{*}=argmaxH(Y|X)=-\sum p(x,y)logp(y|x)=\sum p(y|x)p(x)longp(y|x)

最优解形式Exponential:拉格朗日求偏导为0

Maxent模型是对数线性模型,因为包含指数函数,几乎不可能有解析解。能不能建立一种逼近,构造函数,求其最大\最小值。

极大似然估计MLE:一般形式L_{p}=log(\prod p(x)^{p(x)})

MLE模型与条件熵具有相同的形式。

8.

熵:不确定度;最大熵模型:对不确定度的无偏分配;似然:与知识的吻合程度;最大似然估计:对知识的无偏理解;知识:不确定度的补集。

9.IIS的思想

 

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值