NLP-文本向量训练及相似度计算

本文介绍了如何利用词向量(Word2Vec和Doc2Vec)训练方法,从wiki中文语料库中提取关键词,并计算网页和文档之间的相似度,涵盖了词向量的训练、词语相似度计算以及段落向量在文档相似度上的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、准备语料库

首先下载wiki中文语料(大约1.7G)
https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
下载的文件名为“zhwiki-latest-pages-articles.xml.bz2”

开源语料库
https://github.com/brightmart/nlp_chinese_corpus
https://github.com/crownpku/Awesome-Chinese-NLP

维基中文语料库地址
https://dumps.wikimedia.org/zhwiki/latest/

在这里插入图片描述wike百科语料
https://dumps.wikimedia.org/zhwiki/

二、代码

1.词向量的训练及词语相似度

本文训练词向量的步骤是:

  1. 运行data_pre_process.py脚本对原始中文语料库进行预处理,该脚本执行完毕后会产生reduce_zhiwiki.txt这个文档。
  2. 运行training.py脚本,执行完该脚本后会得到zhiwiki_news系列的四个文件,训练好的词向量就存在这几个文件里。

data_pre_process.py
文本预处理,jieba分词,繁转简

# -*- coding: utf-8 -*-
from gensim.corpora import WikiCorpus
import jieba
from langconv import *
 
 
def my_function():
    space = ' '
    i = 0
    l = []
    zhwiki_name = './data/zhwiki-latest-pages-articles.xml.bz2'
    f = open('./data/reduce_zhiwiki.txt', 'w')
    wiki = WikiCorpus(zhwiki_name, lemmatize=False, dictionary={
   })
    for text in wiki.get_texts():
        for temp_sentence in text:
            temp_sentence = Converter('zh-hans').convert(temp_sentence)
            seg_list = list(jieba.cut(temp_sentence))
            for temp_term in seg_list:
                l.append(temp_term)
        f.write(space.join(l) + '\n')
        l = []
        i = i + 1
        if(i % 200 == 0):
            print('Saved ' + str(i) + ' articles')
    f.close()
 
 
if __name__ == '__main__':
    my_function()

training.py
word2vec文本转向量

# -*- coding: utf-8 -*-
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
import logging
 
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值