-
中文语料预处理
采用维基百科里的中文网页作为训练语料库,下载地址为:https://dumps.wikipedia.org/zhwiki/20190301/zhwiki-20190301-pages-articles.xml.bz2
维基百科提供的语料是xml格式的,因此需要将其转换为txt格式。由于维基百科中有很多是繁体中文网页,故需要将这些繁体字转换为简体字。另外,在用语料库训练词向量之前需要对中文句子进行分词,这里采用Jieba中文分词工具对句子进行分词。
from gensim.corpora import WikiCorpus
import jieba
from opencc import OpenCC
opencc = OpenCC('t2s')
def preprocess():
space = ' '
i = 0
l = []
zhwiki_name = './data/zhwiki-20190301-pages-articles.xml.bz2'
with open('./data/reduce_zhiwiki.txt', 'w') as f: # xml转换为txt
wiki = WikiCorpus(zhwiki_name, lemmatize=False, dictionary={}) # 读取训练语料
for text in wiki.get_texts(): # 文本
for temp_sentence i

使用维基百科中文网页作为训练数据,经过XML到TXT转换、繁体转简体及Jieba分词处理。通过gensim模块训练词向量,展示了如何计算词语间的相似度,如数据与人工智能的相似度为0.29,滴滴与摩拜的相似度为0.39,并找到了与北航最相似的大学。
最低0.47元/天 解锁文章
523

被折叠的 条评论
为什么被折叠?



