-
中文语料预处理
采用维基百科里的中文网页作为训练语料库,下载地址为:https://dumps.wikipedia.org/zhwiki/20190301/zhwiki-20190301-pages-articles.xml.bz2
维基百科提供的语料是xml格式的,因此需要将其转换为txt格式。由于维基百科中有很多是繁体中文网页,故需要将这些繁体字转换为简体字。另外,在用语料库训练词向量之前需要对中文句子进行分词,这里采用Jieba中文分词工具对句子进行分词。
from gensim.corpora import WikiCorpus
import jieba
from opencc import OpenCC
opencc = OpenCC('t2s')
def preprocess():
space = ' '
i = 0
l = []
zhwiki_name = './data/zhwiki-20190301-pages-articles.xml.bz2'
with open('./data/reduce_zhiwiki.txt', 'w') as f: # xml转换为txt
wiki = WikiCorpus(zhwiki_name, lemmatize=False, dictionary={}) # 读取训练语料
for text in wiki.get_texts(): # 文本
for temp_sentence i