BTM主题模型

最新推荐文章于 2024-10-18 12:35:55 发布

kalani呀

最新推荐文章于 2024-10-18 12:35:55 发布

阅读量2.8k

点赞数 3

分类专栏： BTM主题模型 NPL 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58625397/article/details/129040694

版权

BTM主题模型同时被 2 个专栏收录

1 篇文章

订阅专栏

1 篇文章

订阅专栏

BTM是什么

BTM(Biterm Topic Model）和LDA一样都是主题模型，就是给你一篇文档，你指定一个主题的个数，这两个模型都会生成每个主题中的关键词，以及一篇新的文档中各个主题的概率有多大。根据论文作者的表述。传统的主题模型（LDA）在处理短文本（比如直播间弹幕，微博文本等等），会因为文本中的词过于稀疏，得到模型的效果不够好。为了解决这个问题。大佬们提出一种新的主题模型，就是BTM，而且BTM论文的作者说，在短文本上BTM的表现要比LDA好，即使是长文本，BTM的效果也不比LDA弱。

为什么BTM更适合做短文本分析

BTM和LDA除了使用biterm建模外，其余的几乎和LDA相同，而问题就在这个Biterm上了。LDA存在的问题是当文本过短的时候，比如一个文本只有10个单词，那么模型可能会很差，但是，在BTM中，即使一个文本中只有10条单词，那么也会有45个biterm（高中的排列组合）很好的解决了LDA对短文本存在的问题。而且论文中说，显而易见，使用biterm（两个词）对文本建模要比一个词建模要能更好的显示文章的隐藏主题。

Biterm

举个例子，有一句话 “清风明月，草长莺飞，杨柳依依“，这里假设我们断句分词后得到三个词.

['清风明月','草长莺飞','杨柳依依']

那么，这句话就包括三个biterm，分别是

['清风明月','草长莺飞'] ['杨柳依依','草长莺飞']['清风明月','杨柳依依']

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。