lda新闻主题提取_lda主题模型中是否可以使用别人的词典来提取自己文本的主题？...

在人间贩卖黄昏

于 2021-01-17 12:44:16 发布

阅读量287

点赞数

文章标签： lda新闻主题提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36411280/article/details/113011767

版权

本文探讨了是否能用已训练的LDA主题模型，结合贝叶斯公式来计算新文本的主题分布。尽管可以计算，但存在信息损失和推导误差，且可能不包括未在词典中出现的词。

摘要由CSDN通过智能技术生成

不知道我理解的对不对哈～

你想要做的是，

用一个已经训练出来的P(w|z)和P(z|d)去计算一个新文本的P(z|d)？

如果是的话，其实还是有解的～

首先P(z|d)也可以表示为

equation?tex=P%28z%E2%94%82d%29%3DP%28z%E2%94%82w_1%2Cw_2%2Cw_3%E2%8B%AF%29%3D%E2%88%8F_%28w_i%E2%88%88d%29P%28z%7Cw_i%29

但是P(z|w)并没有在原始的主题模型结果中，如何求得P(z|w)就成为此计算的关键了呗~

根据贝叶斯公式，可以得知

equation?tex=P%28z%E2%94%82w%29%3D%28P%28w%7Cz%29P%28z%29%29%2F%28P%28w%29%29

其中P(w)为词频，P(w|z)为主题模型中已知结果。P(z)为我们需要求得的值，而

equation?tex=P%28z%29%3D%E2%88%91_%28d%E2%88%88D%29P%28z%7Cd%29P%28d%29

也就是P(z)可以通过利用P(z|d)和求得。

P(d)表示文档的出现概率，而在这里我们可以先验的认为，所有文档的出现概率服从独立同分布(i.i.d)。也就是说我们可以将此值赋值为相同数值。为了方便计算，我们统一在此将P(d)赋值为1。

而P(z|d)同样作为主题模型中已知结果，由此P(z)可求。

于是通过这个方法，基于一个优良语料计算出的LDA主题模型结果，求得了P(z|w)。之后就可以通过最上面的公式来完成对新文档的主题模型分布计算啦。

简单说其实主要还是用贝叶斯去转换得到最需要的那个条件概率。

虽然我自己实现过这个过程，新文本的主题分布可以计算出来，但是其实是有一定信息损失的。

之前已经计算的lda的词袋中没有出现过的词就不说了。其实这个过程缺少了一步整体计算“分布的分布”的过程，所以整体计算过程虽然看着还算合理，但是其实和lda的推导过程有着一定的误差。

之前也见过论文里有提到基于狄利克雷的方法来基于已有主题模型推断新文章的主题分布的。

但是好久之前的论文了，记不起来啥了。

话说用lda做现在nlp的场景，还有一战之力嘛？

在人间贩卖黄昏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。