主题建模是一种常见的自然语言处理任务。隐含的狄利克雷分布(Latent Dirichlet Allocation,LDA)是其中一种实现算法,其核心思想如下图所示。

主题建模的方法也比较多,除了本文提到的 LDA
,还有 LSA
、pLSA
、NMF
、BERTopic
、Top2Vec
等。后续我会针对这几种主题建模方法出一篇博客,进行一个详细的对比。
本文代码已上传至 我的GitHub,需要可自行下载。
1.数据准备
import warnings
warnings.filterwarning