作者:Susan Li翻译:陈之炎校对:陈汉青
本文约1900字,建议阅读5分钟在这篇文章,我们将LDA应用于一组文档,并将文档按照主题分类。
标签:LDA 算法
主题建模是一种用于找出文档集合中抽象“主题”的统计模型。LDA(Latent Dirichlet Allocation)是主题模型的一个示例,用于将文档中的文本分类为特定的主题。LDA算法为每一个文档构建出一个主题,再为每一个主题添加一些单词,该算法按照Dirichlet分布来建模。
那便开始吧!
数据
在这里将使用到的数据集是15年内发布的100多万条新闻标题的列表,可以从Kaggle下载。
先来看看数据。
1048575
图1
数据预处理
执行以下步骤:
标记化——将文本分成句子,将句子分成单词,把单词变为小写,去掉标点符号。
删除少于3个字符的单词。
删除所有的句号。
词形还原——将第三人称的单词改为第一人称,将过去和未来时态中的动词改为现在时。
词根化——将单词简化为词根形式。
加载gensim 和nltk库
[nltk_data] Downloading package wordnet to[nltk_data]
C:\Users\SusanLi\AppData\Roaming\nltk_data…[nltk_data] Package wordnet is already up-to-date!
True
编写一个函数,对数据集执行词形还原和词干预处理。