# 生成字典和向量语料
dictionary = corpora.Dictionary([corpora_documents])
#print(dictionary)
# print 'dfs:', dictionary.dfs # 字典词频,{单词id,在多少文档中出现}
print 'num_docs:', dictionary.num_docs # 文档数目
print 'num_pos:', dictionary.num_pos # 所有词的个数
# word_id_dict = dictionary.token2id # {词:id}
# print 'word_id_dict:'
# print len(word_id_dict)
自然语言处理爬过的坑:基于爬虫抓取的语料,使用gensim建设dictionary、corpus、tfidf_model并保存成文件
最新推荐文章于 2024-02-25 15:17:58 发布