word2vec训练与相似度计算

最新推荐文章于 2024-07-22 17:01:59 发布

韩明宇

最新推荐文章于 2024-07-22 17:01:59 发布

阅读量3.2k

点赞数 1

分类专栏： NLP

本文链接：https://blog.csdn.net/qq_37098526/article/details/90314146

版权

使用维基百科中文网页作为训练数据，经过XML到TXT转换、繁体转简体及Jieba分词处理。通过gensim模块训练词向量，展示了如何计算词语间的相似度，如数据与人工智能的相似度为0.29，滴滴与摩拜的相似度为0.39，并找到了与北航最相似的大学。

摘要由CSDN通过智能技术生成

中文语料预处理

采用维基百科里的中文网页作为训练语料库，下载地址为：https://dumps.wikipedia.org/zhwiki/20190301/zhwiki-20190301-pages-articles.xml.bz2

维基百科提供的语料是xml格式的，因此需要将其转换为txt格式。由于维基百科中有很多是繁体中文网页，故需要将这些繁体字转换为简体字。另外，在用语料库训练词向量之前需要对中文句子进行分词，这里采用Jieba中文分词工具对句子进行分词。

from gensim.corpora import WikiCorpus
import jieba
from opencc import OpenCC

opencc = OpenCC('t2s')


def preprocess():
    space = ' '
    i = 0
    l = []
    zhwiki_name = './data/zhwiki-20190301-pages-articles.xml.bz2'
    with open('./data/reduce_zhiwiki.txt', 'w') as f:  # xml转换为txt
        wiki = WikiCorpus(zhwiki_name, lemmatize=False, dictionary={})  # 读取训练语料
        for text in wiki.get_texts():  # 文本
            for temp_sentence i