,由
推出
1.定义熵是随机变量不确定性的度量,不确定性越大,熵值越大,若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布
熵是定义了一个函数到一个值的映射。定义域是函数集,值域是值。有点泛函。
,举个例子,如果是两点分布的时候,如果某个点概率为0或为1,则为确定分布,熵为0,均匀分布的时候熵为最大。
2.联合熵
联合分布的熵,
3.条件熵
Y发生的前提下,X发生的熵 ,
4.相对熵(又称互熵、交叉熵、鉴别信息、Kullback熵、Kullback-Leible散度等)
p(x),q(x)是X中取值的两个概率分布,则p对q的相对熵是
5.互信息
定义为,X,Y的联合分布和独立分布乘积的相对熵
,而
,得出
再根据对偶
(给定一定条件后,就变得更确定,熵会更小)
6.最大熵模型的条件
承认已知,没有偏见。概率平均分布等价于熵最大。。给定均值和方差的话,则正太分布的熵最大。
7.特征和样本
(x,y)。y:这个特征中需要确定的信息;x:这个特征汇总的上下文信息
样本:关于某个特征的样本,特征所描述的语法现象在标准集合里的分布 (xi,yi),xi是yi的上下文,yi是xi的实例。
特征函数:对于一个特征(x0,y0),则这个点值为1,其他值为0;
最大熵(条件熵)模型在NLP中的完整提法:NLP(自然语言处理)模型:
最优解形式Exponential:拉格朗日求偏导为0
Maxent模型是对数线性模型,因为包含指数函数,几乎不可能有解析解。能不能建立一种逼近,构造函数,求其最大\最小值。
极大似然估计MLE:一般形式
MLE模型与条件熵具有相同的形式。
8.
熵:不确定度;最大熵模型:对不确定度的无偏分配;似然:与知识的吻合程度;最大似然估计:对知识的无偏理解;知识:不确定度的补集。
9.IIS的思想