1. 安装依赖包
numpy:用来计算多维数组的包,基本操作可看:https://blog.csdn.net/cxmscb/article/details/54583415
scipy:用于数据统计,有多种常用的数据统计函数,也包括连续和离散两种随机变量,这个包要在安装了numpy之后才能安装
gensim:gensim是一个python的自然语言处理库,能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式,这个包要在安装了scipy之后才能安装
下载中文词集
下载地址:中文词集数据的下载地址
处理中文词集(xml)转化为txt
from gensim.corpora import WikiCorpus
# 将训练集转化(xml)为txt
# 参数:wiki训练集存放的路径,txt存放的路径
def translateTheText(xml_path,txt_path):
path_to_wiki_dump = xml_path
wiki_corpus = WikiCorpus(path_to_wiki_dump, dictionary={
})
num = 0
with open(txt_path, 'w', encoding='utf-8') as output:
for text in wiki_corpus