wiki中文数据语料抽取-gensim构建word2vec模型

本文介绍了使用gensim从wiki数据集中提取语料,通过opencc将繁体字转换为简体,利用jieba进行中文分词,然后构建word2vec模型的过程。最后,对模型的相似度进行了测试。
摘要由CSDN通过智能技术生成

阅读目录:

1. WikiCorpus提取xml数据集语料
2. opencc繁转简
3. jieba中文分词
4. word2vec词向量转化
5. 模型测试(相似度)


wiki数据集获取途径点此进入按需获取
我这里为方便快捷,只下载了个10+M的数据集。


1. WikiCorpus提取wiki数据集语料

由于下载的xml格式的wiki数据集不能直接使用,因此需要将其中的语料内容进行提取。
此处用到gensim自带的WikiCorpus工具包

from gensim.corpora import WikiCorpus

def wiki_xml2txt_processing():
    i = 0
    input_file = "zhwiki.xml.bz2"
    output_file = "wiki_data.txt"
    wiki = WikiCorpus(input_file, lemmatize=False, dictionary={
   })
    output = open(output_file, 'w', encoding="utf-8")
    for text in wiki.get_texts():
        str_line = " ".join(text) + "\n"
        output.write(str_line)
        i += 1
        if (i % 100 ==0 ):
            print("Save "+str(i) + " articles")
    output.close()
    print("Finished saved " + str(i) + " articles")

lemmatize:是否用词行还原替代简单正则化表达式对语料进行标记。(默认True)
dictionary:是否使用字典。如果不填一个空字典,会将语料扫描一遍,由此时间会大大增加。(默认None)


2. opencc繁转简

我们查看部分数据可以得知有大量的繁体字,因此我们需要将其转化为简体,以便做后续的处理。
此处需要用到一个繁转简的工具OpenCC,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值