Gensim是Python的一个库
功能:
可伸缩统计语义
分析纯文本文档的语义结构
检索语义相似的文档
关键词:
1.Corpus 语料库(需要处理的文本)
2.Vector 矩阵 (用数字和矩阵来表示文本,对文本的词进行处理和统计,便于后续操作)
3.Model 模型(矩阵之间变换的方式,不同模型按照不同算法进行变换,可以实现计算文本相似度等功能)
模型训练
# coding=utf-8
import gensim
import os
from gensim.models.doc2vec import Doc2Vec,LabeledSentence
from pprint import pprint
# 要实现的功能:利用给定的语料训练模型,再利用模型计算任意文本的相似度
# 第一步,训练模型前,先将语料整理成规定的形式,这里用到TaggedDocument模型
TaggededDocument = gensim.models.doc2vec.TaggedDocument # 输入输出内容都为 词袋 + tag列表, 作用是记录每一篇博客的大致内容,并给该博客编号
list_name = os.listdir("/home/wayne/2017SMP/fenci2/testingcorpus") # 用于训练模型的语料先进行预处理
def get_trainset():
x_train = [] # 用来存放语料
index =