论文解读： Topic Modeling of Short Texts: A Pseudo-Document View

最新推荐文章于 2022-10-30 14:34:45 发布

Whu_Xcy

最新推荐文章于 2022-10-30 14:34:45 发布

阅读量1.9k

点赞数 1

分类专栏：论文解读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011060119/article/details/71422027

版权

论文解读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

16年北航的一篇论文： Topic Modeling of Short Texts: A Pseudo-Document View

看大这篇论文想到了上次面腾讯的时候小哥哥问我短文档要怎么聚类或者分类。当时一脸懵逼。

short texts : 短文本，一般指的是文档的平均单词数量比较小（10左右）的文档这类文档由于co-occurance的单词数目的限制，用普通的主题模型效果不好。

那么要怎么办呢？生成pseudo-document 即伪文档。

伪文档是真实文档的某种结合，论文里边提到了三个点： topic selectors, smoothing prior, weak smoothing。举个例子如下：

第二层的是pseudo-document ，第三层是原始的文档，平均每个文档的单词数目较少。

pseudo-document 已经生成了，那么主题模型变成什么样子了？

针对每个topic 得到每个topic的分布

针对每个伪文档dl, 得到每个dl的分布

对于短文档ds, 首先找到对应的伪文档l, 再根据dl的分布得到主题topic, 根据主题t的分布得到单词w

pseudo-document 的数量是实验过程中人为指定的，数目对模型的好坏是有一定的影响的。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。