text mining week3

最新推荐文章于 2018-09-16 21:41:56 发布

xy773545778

最新推荐文章于 2018-09-16 21:41:56 发布

阅读量233

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xy773545778/article/details/78898000

版权

一、概率主题模型：混合的一元语言模型
这里写图片描述
混合模型中单词的概率是生成单词的不同方法的总和。

这里写图片描述

二、概率主题模型：混合模型估计
假设文本数据包括两种词，一种是像the is 等的背景词，一种是像text mining等的高频词分布中的词。
为了筛选高频率的背景词，我们设该混合模型为假，即我们将假设模型中除了以参数theta d表示的文本分布，所有其他分布的参数值都是已知的，然后再假设背景词模型已知。第一个问题是怎么选择参数theta d来让已观测到的高频词概率（text mining等词）达到最大
这里写图片描述
假设选择这两模型的概率是一样的，即都为0.5，再假设这个文档中只有the和text两个词，且其在背景模型中的概率分别为0.9和0.1，然后求出text和the的概率，似然函数就是两个概率的乘积。

下一步就是要求出让似然函数达到最大值的变量

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
text mining week3

一、概率主题模型：混合的一元语言模型混合模型中单词的概率是生成单词的不同方法的总和。二、概率主题模型：混合模型估计假设文本数据包括两种词，一种是像the is 等的背景词，一种是像text mining等的高频词分布中的词。为了筛选高频率的背景词，我们设该混合模型为假，即我们将假设模型中除了以参数theta d表示的文本分布，所有其他分布的参数值都是已知的，然后再假设背
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。