【python】gensim corpora的简单使用

最新推荐文章于 2025-02-12 16:33:49 发布

「已注销」

最新推荐文章于 2025-02-12 16:33:49 发布

阅读量1.1w

点赞数 17

分类专栏： python 文章标签： gensim corpora NLP python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yolen_Chan/article/details/84934928

版权

本文将展示gensim的一些用法。python环境：Anaconda3（Python3.7）

使用gensim做自然语言处理的一般思路是：使用（处理）字典 ----> 生成（处理）语料库 ----> 自然语言处理（tf-idf的计算等)

利用列表生成字典（dict）：

#导入模块
from gensim import corpora
from pprint import pprint #格式化输出

#三个存放分好词的文本列表
word_list1 = ['我','来自','中国','我']
word_list2 = ['我们','来自','火星']
word_list3 = ['你','来自','何方']

#利用list1和list2生成一个词典
dict = corpora.Dictionary([word_list1,word_list2])
print('由list1和list2生成的词典：')
print(dict)
dict.add_documents([word_list3])
print('由list3拓展生成的词典：')
print(dict)

dict.save('test.dict') #保存字典
dict = corpora.Dictionary.load('test.dict') #加载字典

需要注意的是，corpora.Dictionary()方法，括号里面的对象的形式是这样的：[ [list1] , [list2] ]。

以上代码的运行结果如下：

由list1和list2生成的词典：
Dictionary(5 unique tokens: ['中国', '我', '来自', '我们', '火星'])
由list3拓展生成的词典：
Dictionary(7 unique tokens: ['中国', '我', '来自', '我们', '火星']...)

表明已经生成了字典对象。接下来，通过一些方法来查看字典对象的一些属性：

最低0.47元/天解锁文章

「已注销」

博客等级

码龄7年

2
原创

17
点赞

61
收藏

2
粉丝

关注

私信

热门文章

分类专栏

python 2篇
mysql

最新评论

【python】gensim corpora的简单使用
Pb.d: 想问问from gensim import corpora, models的第三方库安装，我是用anaconda
【python】gensim corpora的简单使用
int_chao: 博主，请问有没有朋友遇到过这种问题，分类的结果中，出现下面这种异常结果，一个ID出现多次，带有特殊字符[ 或 [] ，第一列表示主题类别，第二列表示文章 ID，第三列表示概率。 0,[0],0.88781023 0,[0,0.037519343 0, 9],0.015226385 0, 1,0.011512795 0, 5],0.007800326 0, 2,0.0077988254 0, 6],0.0040878574 0, 5,0.0040863343 0, 2],0.004085866 0, 1],0.0040854104
【python】gensim corpora的简单使用
路子豪: 感谢，写的很详细，另外那个bug我查到了一个解释，说是dictionary.id2token仅在请求时才形成以节省内存（如在Dictionary类的初始化期间所述）。
【python】gensim corpora的简单使用
这样这样: 感谢！

最新文章

Python的bytes和str理解，以及解码编码问题。

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。