LDA主题模型实战

最新推荐文章于 2024-06-10 12:05:20 发布

jiangzhenkang

最新推荐文章于 2024-06-10 12:05:20 发布

阅读量4.4k

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/jiangzhenkang/article/details/84335646

版权

导入相关的包
https://github.com/lda-project/lda 这里有lda包的文档，我也是参考的这个文档来的！

import numpy as np
import lda

X = lda.datasets.load_reuters()
X.shape

(395, 4258)

这里说明X是395行4258列的数据，说明有395个训练样本

vocab = lda.datasets.load_reuters_vocab()
len(vocab)# 这里是所有的词汇

这里说明一个有4258个不重复的词语

选取前十个训练数据看一看

title = lda.datasets.load_reuters_titles()
title[:10]

('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',
 '1 GERMANY: Historic Dresden church rising from WW2 ashes. DRESDEN, Germany 1996-08-21',
 "2 INDIA: Mother Teresa's condition said still unstable. CALCUTTA 1996-08-23",
 '3 UK: Palace warns British weekly over Charles pictures. LONDON 1996-08-25',
 '4 INDIA: Mot

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jiangzhenkang

关注关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
LDA主题模型实战

导入相关的包https://github.com/lda-project/lda 这里有lda包的文档，我也是参考的这个文档来的！import numpy as npimport lda X = lda.datasets.load_reuters()X.shape(395, 4258)这里说明X是395行4258列的数据，说明有395个训练样本vocab = lda....
复制链接

扫一扫