NLP（三）：信息的度量

最新推荐文章于 2023-12-13 21:45:21 发布

打不死的小黑

最新推荐文章于 2023-12-13 21:45:21 发布

阅读量1k

点赞数

分类专栏： NLP 自然语言处理文章标签：信息熵交叉熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hzk1562110692/article/details/88672688

版权

NLP 同时被 2 个专栏收录

6 篇文章 2 订阅

订阅专栏

自然语言处理

4 篇文章 0 订阅

订阅专栏

这是一系列自然语言处理的介绍，本文不会涉及公式推导，主要是一些算法思想的随笔记录。
适用人群：自然语言处理初学者，转AI的开发人员。
编程语言：Python
参考书籍：《数学之美》
信息熵相关知识总结

信息熵

信息是我们一直在谈论的东西，但信息这个概念本身依然比较抽象。在百度百科中的定义：信息，泛指人类社会传播的一切内容，指音讯、消息、通信系统传输和处理的对象。

但信息可不可以被量化，怎样量化？答案当然是有的，那就是“信息熵”。早在1948年，香农(Shannon)在他著名的《通信的数学原理》论文中指出：“信息是用来消除随机不确定性的东西”，并提出了“信息熵”的概念（借用了热力学中熵的概念），来解决信息的度量问题。
信息论

信息论知识点小结

交叉熵cross-entropy

交叉熵(cross-entropy):我们知道通常深度学习模型最后一般都会使用交叉熵作为模型的损失函数（逻辑回归LR的损失函数就是交叉熵)。

损失函数是计算模型预测值和数据真实值之间的相关性,所以可以使用**相对熵(KL散度)**计算（相对熵用来衡量两个取值为正数函数的相似性）。

其中前一部分的-H(p(x))是p的熵,后一部分就是我们所说的交叉熵:

-H(p(x))是不变的,所以我们可以通过计算后一部分的交叉熵来求得Loss。所以通常会使用交叉熵来作为Loss函数,同理交叉熵越小,预测值和真实值之间相似度越高,模型越好。

困惑度(perplexity,PPL)

在NLP中,通常使用困惑度（迷惑度/混乱度）作为衡量语言模型好坏的指标。

其中S为句子,N是句子中单词的个数,p(wi)代表第i个单词的概率.所以PPL越小,p(wi)的概率越高,则一句话属于自然语言的概率也就越高，即语言模型越好。

除了上面介绍的之外，基于信息论的信息增益比(率)、基尼系数Gini 常用于分类的算法——决策树。

打不死的小黑

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP（三）：信息的度量

这是一系列自然语言处理的介绍，本文不会涉及公式推导，主要是一些算法思想的随笔记录。适用人群：自然语言处理初学者，转AI的开发人员。编程语言：Python参考书籍：《数学之美》信息熵##信息的作用##互信息##相对熵##小结...
复制链接

扫一扫

专栏目录

打不死的小黑 CSDN认证博客专家 CSDN认证企业博客

码龄12年

126: 原创

5万+: 周排名

157万+: 总排名

20万+: 访问

: 等级

3593: 积分

132: 粉丝

182: 获赞

22: 评论

451: 收藏

私信

关注

热门文章

分类专栏

最新评论

Web容器（一）：Web容器简介
@LucyLi: 这几张配图看着真舒服
iframe,window,滚动条的一些问题
liyichao_: 23
ReplyingKafkaTemplate的使用——Spring结合Kafka实现同步调用
上学下达: 您好，按照您文章中的配置，启动时报错信息如下： java.lang.IllegalStateException: a KafkaTemplate is required to support replies 请问您那是否遇到过这个问题？谢谢
《富爸爸穷爸爸》读书笔记（四）
九月茅桃: 书籍是本好书籍的，最好的创效小说之一；况且读书做笔记是一件很好的事情，可以记录当时的玲思妙想，一瞬间的灵感。
ReplyingKafkaTemplate的使用——Spring结合Kafka实现同步调用
——春风十里: 楼主，请教个问题，我看了 ReplyingKafkaTemplate 的源码，发现它在启动 replyContainer 时，是在 SmartLifecycle 的 start 方法中，而不是 InitializingBean 的 afterPropertiesSet 方法中。当Spring容器加载所有bean并完成初始化之后会接着回调 SmartLifecycle 的 start 方法，但是这样就会造成一个问题，如果想在其他类的初始化过程（afterPropertiesSet）中通过 kafka 进行通讯，就会立刻抛出一个异常：Template has not been start()ed。因为 replyContainer 还未启动，这是我不能理解的，不明白 replyContainer 为什么非要在所有 bean 初始化完后才启动。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。