项目介绍
使用python在Reuters-21578语料库上进行LDA主题建模。
The NLTK in Python comes with the Reuters-21578 corpus. Install the nltp python package:
pip3 install --user -U nltk
要导入这个文集,在Python提示符中输入以下命令:
import nltk
nltk.download(‘reuters’)
reuters.readme()
reuters.categories()
reuters.raw()
本项目包含:
-
路透社21578语料库介绍。
-
每个文档的实现。
-
将LDA应用于该语料库进行主题建模。
-
LDA中参数的设置与含义。
-
代码的输出与主题的可视化
项目开始
- 路透社21578语料库介绍。
21578集合分布在22个文件中。前21个文件包含1000个文档,而最后一个文件包含578个文档。另外,所有文件均为SGML格式。
每个文件都以文档类型声明行开头:
这意味着dtd文件lewis.dtd包含在发行版中
下面几行是用SGML标记标记的路透社文章。
关于 reut2-000.sgm (上图), 这个文件的第二行是第一篇文章的“打开标签”。我们可以得到这篇文章在Reuters-21578中的ID为1,并在实验室中作为训练样本使用。
每篇文章的结尾都有一个“结束标记”,形式如下:
上图显示了reut2-000.sgm中第一篇文章的结束标签,以及“open tag”和“close tag”是他们行中唯一的词。结束标记之后的下一行是打开下一篇文章的标签,在图中我们可以看到下一篇文章的ID在Reuters-21578中是2。
对于这些类别,路透社21578中有五组不同的内容相关类别,分别是交流、组织、人员、地点和主题 (EXCHANGES, ORGS, PEOPLE, PLACES and TOPICS)。有五个txt文件描述每个分类系统中包含的类别(下图)。
让我们打开五个txt文件中的一个,例如all-topics-strings.ls.txt