最大熵模型

JieFeiLau

于 2019-04-02 10:11:16 发布

阅读量284

点赞数 1

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014028063/article/details/88964334

版权

NLP 专栏收录该内容

6 篇文章 2 订阅

订阅专栏

熵

熵H(X)又称自信息，是描述一个随机变量不确定性大小的量，熵越大则不确定性越大，则需要用更多的信息量来消除这种不确定性。前面《浅谈机器学习基础》中讲决策树的时候就提到了香农熵。

在只掌握关于未知分布的部分知识的情况下，符合已知知识的概率分布可能有多个，但使熵值最大的概率分布真实的反映了事件的分布情况。以此为依据构建的模型叫做最大熵模型，后面会详细讲，这里只做简单介绍。

然后是联合熵H(X,Y)、条件熵H(Y|X)和互信息I(X;Y)：

联合熵、条件熵、互信息

熵H(X)是描述一个随机变量X所需要的信息量，而联合熵H(X,Y)就是描述两个随机变量X和Y所需要的信息量，联合熵大于或等于这两个变量中任一个的熵。

互信息I(X;Y)描述的是两个随机变量X和Y之间的相关性，也即已知X后，Y不确定性的减少量（熵H(Y)的减少量），反之亦成立。换句话讲，X与Y关联越大，越相关，则互信息I(X;Y)越大。

条件熵H(Y|X)就是在已知X的条件下，Y的熵。因为互信息I(X;Y)的存在，已知X会使Y的熵减少，减少后的Y的熵就是H(Y|X)。

从图中也可以看出：H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)。回想一下，是不是和条件概率的计算公式有相似的地方。

接下来是相对熵D(p||q)，相对熵又称Kullback-Leibler差异，或简称KL距离，是衡量相同事件空间里两个概率分布相对差距的测度，当两个随机分布完全相同时，相对熵为0。当两个随机分布的差别增加时，其相对熵期望值也增大。

然后是交叉熵H(X,q)，X是随机变量，q是模型。我们前面讲过交叉浅谈自然语言处理基础（上）熵损失函数，交叉熵的概念就是用来衡量估计模型与真实概率分布之间差异情况的。而困惑度的概念与交叉熵相似，交叉熵对应的困惑度的计算方式为：2的交叉熵次方。交叉熵与困惑度都是越小越证明模型有效。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。