PLSA模型简介

PLSA是一种主题模型,用于文本语义分析,常应用于广告推荐、文本分类和搜索相关性改进。它通过概率计算解决bag of words模型在处理一词多义和同义词时的不足,利用EM算法寻找潜在主题与单词、文档关系的最优解。
摘要由CSDN通过智能技术生成

PLSA作为一种主题模型,提供了一种文本语义分析的手段,在自然语言处理中有很多应用,例如广告推荐、文本分类、改善搜索相关性等。关于PLSA的应用场景在下一篇博客中介绍,这里先对模型作一个简单的介绍,也算是对PLSA的推导过程做一个梳理。

PLSA:Probabilistic LatentSemantic Analysis,也即浅层概率语义分析,大体来讲就是通过概率手段计算潜在主题与word、document之间的关系。

传统的bag of words模型,通过word之间的匹配来计算文档之间的距离,对于汉语中的一词多义、同义词现象解决起来相对乏力。主题模型通过引入潜在主题维度,将文档投影到潜在主题上,将字面上不同的文档从语义上进行关联。

P(d):在海量文档中选出文档d的概率

P(z|d):文档d属于主题z的概率

p(w|z):在主题z的中选中单词w的概率

因此可以得出以下等式:

在文档di中选出单词wj的概率:

根据条件概率可以得到:

文档集合被选中的概率:

对p求极大似然估计可得到:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值