本文将展示gensim的一些用法。python环境:Anaconda3(Python3.7)
使用gensim做自然语言处理的一般思路是:使用(处理)字典 ----> 生成(处理)语料库 ----> 自然语言处理(tf-idf的计算等)
利用列表生成字典(dict):
#导入模块
from gensim import corpora
from pprint import pprint #格式化输出
#三个存放分好词的文本列表
word_list1 = ['我','来自','中国','我']
word_list2 = ['我们','来自','火星']
word_list3 = ['你','来自','何方']
#利用list1和list2生成一个词典
dict = corpora.Dictionary([word_list1,word_list2])
print('由list1和list2生成的词典:')
print(dict)
dict.add_documents([word_list3])
print('由list3拓展生成的词典:')
print(dict)
dict.save('test.dict') #保存字典
dict = corpora.Dictionary.load('test.dict') #加载字典
需要注意的是,corpora.Dictionary()方法,括号里面的对象的形式是这样的:[ [list1] , [list2] ]。
以上代码的运行结果如下:
由list1和list2生成的词典:
Dictionary(5 unique tokens: ['中国', '我', '来自', '我们', '火星'])
由list3拓展生成的词典:
Dictionary(7 unique tokens: ['中国', '我', '来自', '我们', '火星']...)
表明已经生成了字典对象。接下来,通过一些方法来查看字典对象的一些属性: