LDA原理（3）知识储备之PLSA

最新推荐文章于 2020-05-20 22:45:28 发布

TENLIU2099

最新推荐文章于 2020-05-20 22:45:28 发布

阅读量357

点赞数

分类专栏： LDA 文章标签： PLSA LDA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TENLIU2099/article/details/78087783

版权

LDA 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

更多内容请访问我的个人博客www.tenliu.top

在讲PLSA概率潜在语义模型（似乎比LSA更容易解释啊）之前
我们先定义一些表示:

D表示语料库
M表示该语料库中有M篇文档
V表示语料库中的词的个数（当然重复的词只算一次）
N表示语料库中词的词频（重复的也算），那么V个词，每个词的- 词频记为 $n_i$
d就是语料库中的一篇文档， $w_i$ 表示文档中的第i个词

注意这是“概率”而不是贝叶斯派的思想哦，下面的过程中你也可以思考如果是贝叶斯派应该会怎么想这个问题。

如果我们假设一篇文章的生成过程是这样的，首先确定这个文章涉及几个主题（每个主题呢，都有和这个主题相关的词），开始写文章，每写一个词的时候，都要选择主题，然后在这个主题下选择词。每一个词都是这样产生，直到文章结束。

整个过程就像是上帝掷骰子，当你开始要写某一篇文章（例如第m篇）的时候，你明确文章几个主题（如K个主题，每个主题分别是语文、数学、等），就相当于上帝现做了一个“doc-topic”骰子，这个骰子有K个面，对应K个主题（参数
$\vec{\theta_m}=(\vec{\theta_{m1}},\vec{\theta_{m2}},...,\vec{\theta_{mk}})$ ），
然后上帝又做了K个骰子“topic-word”骰子（每个骰子的参数是
$\vec{\psi_{1}},\vec{\psi_{2}},...,\vec{\psi_{K}}$ ）。
现在写文章就是上帝掷骰子，每写一个词，就是上帝先投“doc-topic”骰子，如结果是第i面（对应一个主题），那么在拿起对应的第i个“topic-word”骰子，掷出一个词。
那么第m篇文档dm的某一个词w的生成概率：

p (w ⃗ | d m) = \sum z = 1 K p (w | z) p (z | d m) = \sum z = 1 K ψ z w θ m z

$p(\vec{w}|d_m)=\sum_{z=1}^{K}p(w|z)p(z|d_m)=\sum_{z=1}^{K}\psi_{zw}\theta_{mz}$
如果这篇文档

w⃗ $\vec{w}$ 由n个词组成，那么这篇文档的生成概率就是：

p (w ⃗ | d m) = \prod i = 1 n p (w i \to | d m) = \prod i = 1 n \sum z = 1 K ψ z w i θ m z

$p(\vec{w}|d_m)=\prod_{i=1}^{n}p(\vec{w_i}|d_m)=\prod_{i=1}^{n}\sum_{z=1}^{K}\psi_{zw_i}\theta_{mz}$

更多内容请访问我的个人博客www.tenliu.top

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。