《Text Mining and Analytics》学习笔记——第三周

最新推荐文章于 2024-04-03 09:41:33 发布

土豆洋芋山药蛋

最新推荐文章于 2024-04-03 09:41:33 发布

阅读量2.3k

点赞数 4

分类专栏：自然语言处理【NLP】文章标签：文本挖掘 TextMining Coursera 笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33414271/article/details/78938301

版权

上周我们留了一个问题：在使用最大似然法时如何去掉那些并不重要但实际上出现次数又很多的单词呢？

这里写图片描述

这周就以这个问题开始进一步的学习概率主题模型吧。

一元语言混合模型

怎么能避免那些并不重要但实际上出现次数又很多的单词对结果的影响呢？我们很自然的就会想到将a，the这类单词和其他的单词分开，也就是需要两个或多个分布来表示一个模型。

正如下图所展示的一样，我们用了两个分布来生成一个文本挖掘的文档，选择将 $\theta_{B}$ 作为主题背景， $\theta_{d}$ 作为主题。
这里写图片描述

此时假如文本中有一个单词‘the’，那么这个the的概率应该怎么算呢？
$P("the")=P(\theta_{d})*P("the"|\theta_{d})+P(\theta_{B})*P("the"|\theta_{B})=0.5*0.000001+0.5*0.03$

回顾一下，我们改变了原本使用一个词分布的模型，换为使用两个词分布的混合模型，以此来避免a，the这类单词的干扰

混合模型的评价

我们评价这个模型的效果的方法基本类似：

两个主题（主题，主题背景）
主题覆盖率

考虑一下极端情况，其中一个模型的占比为0，即 $P(\theta_{B})$ 为0时，也就变回了我们之前的一元语言统计模型。

计算方法

数据：文本d
混合模型：参数 Λ=(p(w|θB),p(w|θd),P(θB),P(θd))
- 两个一元模型： $\theta_{B}$ （主题背景）， $\theta_{d}$ （主题）
- 混合的权重（模型选择）： P

最低0.47元/天解锁文章

土豆洋芋山药蛋

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。