wiki中文数据语料抽取-gensim构建word2vec模型

最新推荐文章于 2022-09-21 11:45:02 发布

Lijuce

最新推荐文章于 2022-09-21 11:45:02 发布

阅读量1.9k

点赞数 1

分类专栏：笔记文章标签： NLP 自然语言处理库gensim wiki公开数据集

本文链接：https://blog.csdn.net/Ljuice/article/details/99464819

版权

本文介绍了使用gensim从wiki数据集中提取语料，通过opencc将繁体字转换为简体，利用jieba进行中文分词，然后构建word2vec模型的过程。最后，对模型的相似度进行了测试。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

阅读目录：

1. WikiCorpus提取xml数据集语料
2. opencc繁转简
3. jieba中文分词
4. word2vec词向量转化
5. 模型测试（相似度）

wiki数据集获取途径：点此进入按需获取
我这里为方便快捷，只下载了个10+M的数据集。

1. WikiCorpus提取wiki数据集语料

由于下载的xml格式的wiki数据集不能直接使用，因此需要将其中的语料内容进行提取。
此处用到gensim自带的WikiCorpus工具包

from gensim.corpora import WikiCorpus

def wiki_xml2txt_processing():
    i = 0
    input_file = "zhwiki.xml.bz2"
    output_file = "wiki_data.txt"
    wiki = WikiCorpus(input_file, lemmatize=False, dictionary={
   })
    output = open(output_file, 'w', encoding="utf-8")
    for text in wiki.get_texts():
        str_line = " ".join(text) + "\n"
        output.write(str_line)
        i += 1
        if (i % 100 ==0 ):
            print("Save "+str(i) + " articles")
    output.close()
    print("Finished saved " + str(i) + " articles")