阅读目录:
1. WikiCorpus提取xml数据集语料
2. opencc繁转简
3. jieba中文分词
4. word2vec词向量转化
5. 模型测试(相似度)
wiki数据集获取途径:点此进入按需获取
我这里为方便快捷,只下载了个10+M的数据集。
1. WikiCorpus提取wiki数据集语料
由于下载的xml格式的wiki数据集不能直接使用,因此需要将其中的语料内容进行提取。
此处用到gensim自带的WikiCorpus工具包
from gensim.corpora import WikiCorpus
def wiki_xml2txt_processing():
i = 0
input_file = "zhwiki.xml.bz2"
output_file = "wiki_data.txt"
wiki = WikiCorpus(input_file, lemmatize=False, dictionary={
})
output = open(output_file, 'w', encoding="utf-8")
for text in wiki.get_texts():
str_line = " ".join(text) + "\n"
output.write(str_line)
i += 1
if (i % 100 ==0 ):
print("Save "+str(i) + " articles")
output.close()
print("Finished saved " + str(i) + " articles")
lemmatize:是否用词行还原替代简单正则化表达式对语料进行标记。(默认True)
dictionary:是否使用字典。如果不填一个空字典,会将语料扫描一遍,由此时间会大大增加。(默认None)
2. opencc繁转简
我们查看部分数据可以得知有大量的繁体字,因此我们需要将其转化为简体,以便做后续的处理。
此处需要用到一个繁转简的工具OpenCC,