关于Gensim的初次见面 和 Doc2vec 的模型训练

Gensim是Python用于语义分析的库,支持处理文本文档并检索语义相似的文档。核心概念包括Corpus语料库、Vector矩阵和Model模型。在Doc2vec模型训练中,主要涉及TaggedDocument预处理、模型训练及保存加载,以及计算文档相似度。
摘要由CSDN通过智能技术生成

Gensim是Python的一个库

功能:

可伸缩统计语义
分析纯文本文档的语义结构
检索语义相似的文档

关键词:

1.Corpus 语料库(需要处理的文本)
2.Vector 矩阵 (用数字和矩阵来表示文本,对文本的词进行处理和统计,便于后续操作)
3.Model 模型(矩阵之间变换的方式,不同模型按照不同算法进行变换,可以实现计算文本相似度等功能)

模型训练
# coding=utf-8

import gensim
import os
from gensim.models.doc2vec import Doc2Vec,LabeledSentence
from pprint import pprint


# 要实现的功能:利用给定的语料训练模型,再利用模型计算任意文本的相似度


# 第一步,训练模型前,先将语料整理成规定的形式,这里用到TaggedDocument模型

TaggededDocument = gensim.models.doc2vec.TaggedDocument # 输入输出内容都为 词袋 + tag列表, 作用是记录每一篇博客的大致内容,并给该博客编号
list_name = os.listdir("/home/wayne/2017SMP/fenci2/testingcorpus")  # 用于训练模型的语料先进行预处理
def get_trainset():
    x_train = [] # 用来存放语料
    index = 
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值