很久以前用过gensim这种python版本的NLP,机器学习工具,现在忘差不多了,今天又捡起来
genSim处理中文过程中,第一步先进行分词,采用的python的结巴分词,分词完毕后,针对特定语料集,形成自己的词典,gensim工具要求的词典格式如下
103385
0 内部电源 37
1 运输汽车 2
2 傅里叶级数 2
3 盘式 145
4 柴油发动机 177
……
第一行为语料集规模
第二行开始分三列,分别是词ID,词,文档频率
#coding=utf-8
from gensim import corpora,models,similarities
mydic=corpora.Dictionary.load_from_text('G:/renWork/legalData/gensi.dic')