word2vec训练与相似度计算

使用维基百科中文网页作为训练数据,经过XML到TXT转换、繁体转简体及Jieba分词处理。通过gensim模块训练词向量,展示了如何计算词语间的相似度,如数据与人工智能的相似度为0.29,滴滴与摩拜的相似度为0.39,并找到了与北航最相似的大学。
摘要由CSDN通过智能技术生成
  • 中文语料预处理

采用维基百科里的中文网页作为训练语料库,下载地址为:https://dumps.wikipedia.org/zhwiki/20190301/zhwiki-20190301-pages-articles.xml.bz2

维基百科提供的语料是xml格式的,因此需要将其转换为txt格式。由于维基百科中有很多是繁体中文网页,故需要将这些繁体字转换为简体字。另外,在用语料库训练词向量之前需要对中文句子进行分词,这里采用Jieba中文分词工具对句子进行分词。

from gensim.corpora import WikiCorpus
import jieba
from opencc import OpenCC

opencc = OpenCC('t2s')


def preprocess():
    space = ' '
    i = 0
    l = []
    zhwiki_name = './data/zhwiki-20190301-pages-articles.xml.bz2'
    with open('./data/reduce_zhiwiki.txt', 'w') as f:  # xml转换为txt
        wiki = WikiCorpus(zhwiki_name, lemmatize=False, dictionary={})  # 读取训练语料
        for text in wiki.get_texts():  # 文本
            for temp_sentence i
  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值