文本挖掘与分析课程笔记_Week3

最新推荐文章于 2024-01-02 01:20:39 发布

DranGoo

最新推荐文章于 2024-01-02 01:20:39 发布

阅读量548

点赞数

分类专栏： coursera学习笔记文章标签：自然语言处理 NLP coursera课程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DranGoo/article/details/78968749

版权

这是一篇关于Coursera课程第三周的笔记，主要探讨概率主题模型，包括混合一元语言模型、最大期望算法(EM)、概率隐语义分析(PLSA)和潜在利克雷分布(LDA)。EM算法用于求解模型参数，LDA解决了PLSA的某些缺点，提供了一种生成模型。

摘要由CSDN通过智能技术生成

第三周笔记

概率主题模型：混合一元语言模型

用两个词分布来表示，以此去除背景词（常见但意义不大的词）
θd表示主题词分布
θB表示背景词分布

这里写图片描述

文本中某个词的概率计算

这里写图片描述

混合两个一元语言模型（解析）

利用最大似然求解混合两个一元语言模型时，θd和θB会出现“合作”和“竞争”
在θB（背景词）分布中，概率大的词，相对地在θd（主题词）中概率会变小
某个词出现的次数越多，那么它在θd中的概率越高

这里写图片描述

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。