《Text Mining and Analytics》学习笔记——第二周

最新推荐文章于 2021-04-26 10:59:18 发布

土豆洋芋山药蛋

最新推荐文章于 2021-04-26 10:59:18 发布

阅读量1.3k

点赞数

分类专栏：自然语言处理【NLP】文章标签：自然语言处理概率模型熵条件熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33414271/article/details/78871154

版权

第一周笔记 : 《Text Mining and Analytics》学习笔记——第一周

目录

组合关系

1.熵

2.条件熵

3.条件熵挖掘组合关系

4.交互信息

交互信息特点：

交互信息的数学表达式：

交互信息的计算：

主题挖掘（Topic Mining）

1.动机和任务

基于主题挖掘的应用：

得到k个主题

每篇文章的主题覆盖率

2.将术语作为主题

那我们应该如何选择术语？

有了主题（术语）之后怎么计算主题覆盖率呢？

3.概率主题模型

计算主题覆盖率

计算步骤

统计语言模型

1)已知概率来求主题：

2)已知文本来参数估计：

总结

挖掘一个主题

组合关系

1.熵

首先看一下我们遇到的问题：我们需要知道什么单词会有跟eats一起出现的趋势呢？
这里写图片描述

先设可能会一起出现的词为W
这里写图片描述
假设现在W有3个可选选项，分别为W=“meat”；W=“the”；W=“unicorn”。

我们可以发现有一些词是比较容易预测的：
the好像放哪都可以，所以容易预测很可能出现
而“unicorn”很不常见，也容易预测基本不会出现

而“meat”出现的频率介于两者之间，所以更难预测一些，可能出现也可能不出现

那我们到底要怎么衡量一个单词出现在某个短语中可能性呢？这里引入熵的概念来度量X的随机性。

熵的公式：
这里写图片描述

在一次事件中：
极端情况：当一旦此出现的概率为1或0的时候，它的熵为0

当单词的概率为1/2的时候，熵最大（当某件事情发生的概率为1/2时，足以说明这个事情很随机，比如抛硬币）。

这里写图片描述

对应到我们之前的问题中，其中“the”随处都可以看见，“unicorn”很不常见，所以他们的熵接近于0，而此时“meat”的对应的熵会明显高于其它两个单词。

现在我们可以得到熵越高词越难预测。

2.条件熵

上面是每一个单词单独出现的预测，那么当我们已知了eats已经存在于这个上下文中，那么其它单词的出现应该怎么预测呢？这里我们就引入了条件熵的概念。
这里写图片描述

那么条件熵就变为了：
这里写图片描述

一般的 $H(X_{meat})\geqslant H(X_{meat}|X_{eats})$ ，因为当我们增加了信息后，信息的不确定性就会降低，就会变得相对容易预测。
条件熵的最小值：
$H(X_{meat}|X_{meat})=0$ ，因为我们已经知道了meat的存在，它就没有不确定性了。
$H(X_{meat}|X_{the})$ ， H(

最低0.47元/天解锁文章

土豆洋芋山药蛋

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
《Text Mining and Analytics》学习笔记——第二周

第一周笔记 : 《Text Mining and Analytics》学习笔记——第一周目录组合关系1.熵2.条件熵3.条件熵挖掘组合关系4.交互信息交互信息特点：交互信息的数学表达式：交互信息的计算：主题挖掘（Topic Mining）1.动机和任务基于主题挖掘的应用：得到k个主题每篇文章的主题覆盖率2.将术语作为主题那我们...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。