LDA笔记

最新推荐文章于 2021-02-19 05:50:23 发布

寂寞灵魂

最新推荐文章于 2021-02-19 05:50:23 发布

阅读量808

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/riverflowrand/article/details/52808567

版权

看LDA的论文看了三四天了，记录。

以前写的，现在又看不懂了，只好又看了一遍，麻痹的，记录详细一点。

符号表示：

我们是想对主题-词语的概率建模：

但是此概率尤其是分母很难直接求解，则用Gibbs采样：

奉上lda的步骤：

theta是p(topic|docs)

phi是p(word|topic)

对于一篇文章，我们想要知道它包含的主题，就是求解theta。

对于一篇文章里的某个词语，我们想要知道它最可能的主题，就是求解theta * phi。

对于上面的采样，使用下面的步骤：

而上面的采样公式

为下面的公式（29）。

LDA的Gibbs采样公式：

《Latent Dirichlet Allocation》上LDA的推导是用EM算法来推导采样公式。（没看懂）

《Parameter estimation for text analysis》文章那么长。用p(z,w)即z和w的联合概率来求解采样公式。

接着：

《LDA数学八卦》里对于phi和theta的计算没用EM，而是 Dirichlet + Multinomial = Dirichlet的方法来计算LDA的Gibbs的采样公式。

所以：

采样步骤（根据实现LDA4j）：

要求解的是β到w的phi，和α到z的theta。

P(z|w) ----p(w,z)--> phi, theta。

theta是p(topic|docs)

phi是p(word|topic)

phi可以存贮下来做inference用，theta因为与具体的文档相关，即使存储下来也没用。inference时还要用Gibbs采样计算theta，这里在计算时，不再是根据训练数据了，而是根据根据已经训练好的主题索引z[][]。

主要是论文长、网上的博客水，所以看得晕了好几天。

ps：话说CSDN博客这几天好像挂了？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。