python下【word2vec】实现两个词向量的相似度计算

本文介绍了如何在Python中使用Gensim库的word2vec工具来计算词向量的相似度。首先,讨论了word2vec的基本概念和预处理语料的重要性,接着详细描述了训练模型的步骤,包括关键参数如窗口大小、词向量维度等。实验以医疗网站的咨询问答信息作为语料,展示了训练过程和可能遇到的问题。
摘要由CSDN通过智能技术生成

词向量(word2vec)

是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
要使用word2vec工具就我所知有两种方式,一种是从谷歌下载安装,需要使用linux环境;另一种是python中的gensim库中就有word2vec工具。本文使用python下的word2vec方法。

利用word2vec实现计算两个词的相似度,需要利用python中的模块Gensim先进行语料训练,Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。

语料处理:
练语料的预处理指的是将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表。 通常,我们要处理的原生语料是一堆文档的集合,每一篇文档又是一些原生字符的集合。在交给Gensim的模型训练之前,我们需要将这些原生字符解析成Gensim能处理的稀疏向量的格式。由于语言和应用的多样性,Gensim没有对预处理的接口做出任何强制性的限定。通常,我们需要先对原始的文本进行分词、去除停用词等操作,得到每一篇文档的特征列表。
如一篇文档由四个句子组成,那么输入形式为:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值