《Text Mining and Analytics》学习笔记——第三周

上周我们留了一个问题:在使用最大似然法时如何去掉那些并不重要但实际上出现次数又很多的单词呢?

这里写图片描述

这周就以这个问题开始进一步的学习概率主题模型吧。

一元语言混合模型

怎么能避免那些并不重要但实际上出现次数又很多的单词对结果的影响呢?我们很自然的就会想到将a,the这类单词和其他的单词分开,也就是需要两个或多个分布来表示一个模型。

正如下图所展示的一样,我们用了两个分布来生成一个文本挖掘的文档,选择将 θB θ B 作为主题背景, θd θ d 作为主题。
这里写图片描述

此时假如文本中有一个单词‘the’,那么这个the的概率应该怎么算呢?
P("the")=P(θd)P("the"|θd)+P(θB)P("the"|θB)=0.50.000001+0.50.03 P ( " t h e " ) = P ( θ d ) ∗ P ( " t h e " | θ d ) + P ( θ B ) ∗ P ( " t h e " | θ B ) = 0.5 ∗ 0.000001 + 0.5 ∗ 0.03

回顾一下,我们改变了原本使用一个词分布的模型,换为使用两个词分布的混合模型,以此来避免a,the这类单词的干扰

混合模型的评价

我们评价这个模型的效果的方法基本类似:

  • 两个主题(主题,主题背景)
  • 主题覆盖率

考虑一下极端情况,其中一个模型的占比为0,即 P(θB) P ( θ B ) 为0时,也就变回了我们之前的一元语言统计模型。

计算方法

  • 数据:文本d
  • 混合模型:参数 Λ=(p(w|θB),p(w|θd),P(θB),P(θd)) Λ = ( p ( w | θ B ) , p ( w | θ d ) , P ( θ B ) , P ( θ d ) )
    • 两个一元模型: θB θ B (主题背景), θd θ d (主题)
    • 混合的权重(模型选择): P
  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值