主题建模是一种用于找出文档集合中抽象“主题”的统计模型。LDA(Latent Dirichlet Allocation)是主题模型的一个示例,用于将文档中的文本分类为特定的主题。LDA算法为每一个文档构建出一个主题,再为每一个主题添加一些单词,该算法按照Dirichlet分布来建模。
那便开始吧!
数据
在这里将使用到的数据集是15年内发布的100多万条新闻标题的列表,可以从Kaggle下载。
先来看看数据。
1048575
图1
数据预处理
执行以下步骤:
标记化——将文本分成句子,将句子分成单词,把单词变为小写,去掉标点符号。
删除少于3个字符的单词。
删除所有的句号。
词形还原——将第三人称的单词改为第一人称,将过去和未来时态中的动词改为现在时。
词根化——将单词简化为词根形式。
加载gensim 和nltk库