数据科学与大数据分析之项目4-主题建模

最新推荐文章于 2023-01-10 14:33:49 发布

Jifu_M

最新推荐文章于 2023-01-10 14:33:49 发布

阅读量908

点赞数 1

分类专栏：数据科学与大数据分析项目练习文章标签： python 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jifu_M/article/details/112109188

版权

Topic Modeling

项目介绍
项目开始
Reference

项目介绍

使用python在Reuters-21578语料库上进行LDA主题建模。
The NLTK in Python comes with the Reuters-21578 corpus. Install the nltp python package:
pip3 install --user -U nltk
要导入这个文集，在Python提示符中输入以下命令:

import nltk
nltk.download(‘reuters’)
reuters.readme()
reuters.categories()
reuters.raw()

本项目包含：

路透社21578语料库介绍。
每个文档的实现。
将LDA应用于该语料库进行主题建模。
LDA中参数的设置与含义。
代码的输出与主题的可视化

项目开始

路透社21578语料库介绍。

21578集合分布在22个文件中。前21个文件包含1000个文档，而最后一个文件包含578个文档。另外，所有文件均为SGML格式。
每个文件都以文档类型声明行开头:

这意味着dtd文件lewis.dtd包含在发行版中

下面几行是用SGML标记标记的路透社文章。
在这里插入图片描述
关于 reut2-000.sgm （上图）, 这个文件的第二行是第一篇文章的“打开标签”。我们可以得到这篇文章在Reuters-21578中的ID为1，并在实验室中作为训练样本使用。

在这里插入图片描述

每篇文章的结尾都有一个“结束标记”，形式如下：

上图显示了reut2-000.sgm中第一篇文章的结束标签，以及“open tag”和“close tag”是他们行中唯一的词。结束标记之后的下一行是打开下一篇文章的标签，在图中我们可以看到下一篇文章的ID在Reuters-21578中是2。

对于这些类别，路透社21578中有五组不同的内容相关类别，分别是交流、组织、人员、地点和主题（EXCHANGES, ORGS, PEOPLE, PLACES and TOPICS）。有五个txt文件描述每个分类系统中包含的类别(下图)。
在这里插入图片描述
让我们打开五个txt文件中的一个，例如all-topics-strings.ls.txt

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据科学与大数据分析之项目4-主题建模

Topic Modeling项目介绍项目开始Reference项目介绍使用python在Reuters-21578语料库上进行LDA主题建模。The NLTK in Python comes with the Reuters-21578 corpus. Install the nltp python package:pip3 install --user -U nltk要导入这个文集，在Python提示符中输入以下命令:import nltknltk.download(‘reuters’)r
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。