数据科学与大数据分析之项目4-主题建模

项目介绍

使用python在Reuters-21578语料库上进行LDA主题建模。
The NLTK in Python comes with the Reuters-21578 corpus. Install the nltp python package:
pip3 install --user -U nltk
要导入这个文集,在Python提示符中输入以下命令:

import nltk
nltk.download(‘reuters’)
reuters.readme()
reuters.categories()
reuters.raw()

本项目包含:

  1. 路透社21578语料库介绍。

  2. 每个文档的实现。

  3. 将LDA应用于该语料库进行主题建模。

  4. LDA中参数的设置与含义。

  5. 代码的输出与主题的可视化

项目开始

  1. 路透社21578语料库介绍。

21578集合分布在22个文件中。前21个文件包含1000个文档,而最后一个文件包含578个文档。另外,所有文件均为SGML格式。
每个文件都以文档类型声明行开头:

这意味着dtd文件lewis.dtd包含在发行版中

下面几行是用SGML标记标记的路透社文章。
在这里插入图片描述
关于 reut2-000.sgm (上图), 这个文件的第二行是第一篇文章的“打开标签”。我们可以得到这篇文章在Reuters-21578中的ID为1,并在实验室中作为训练样本使用。

在这里插入图片描述

每篇文章的结尾都有一个“结束标记”,形式如下:

上图显示了reut2-000.sgm中第一篇文章的结束标签,以及“open tag”和“close tag”是他们行中唯一的词。结束标记之后的下一行是打开下一篇文章的标签,在图中我们可以看到下一篇文章的ID在Reuters-21578中是2。

对于这些类别,路透社21578中有五组不同的内容相关类别,分别是交流、组织、人员、地点和主题 (EXCHANGES, ORGS, PEOPLE, PLACES and TOPICS)。有五个txt文件描述每个分类系统中包含的类别(下图)。
在这里插入图片描述
让我们打开五个txt文件中的一个,例如all-topics-strings.ls.txt
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值