python下【word2vec】实现两个词向量的相似度计算

最新推荐文章于 2022-03-29 09:20:39 发布

格噜

最新推荐文章于 2022-03-29 09:20:39 发布

阅读量7.9k

点赞数 2

分类专栏：学习笔记文章标签： python 文本处理 word2vec

本文链接：https://blog.csdn.net/weixin_41824534/article/details/99060438

版权

本文介绍了如何在Python中使用Gensim库的word2vec工具来计算词向量的相似度。首先，讨论了word2vec的基本概念和预处理语料的重要性，接着详细描述了训练模型的步骤，包括关键参数如窗口大小、词向量维度等。实验以医疗网站的咨询问答信息作为语料，展示了训练过程和可能遇到的问题。

摘要由CSDN通过智能技术生成

词向量（word2vec）

是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。
要使用word2vec工具就我所知有两种方式，一种是从谷歌下载安装，需要使用linux环境；另一种是python中的gensim库中就有word2vec工具。本文使用python下的word2vec方法。

利用word2vec实现计算两个词的相似度，需要利用python中的模块Gensim先进行语料训练，Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口。

语料处理：
练语料的预处理指的是将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表。通常，我们要处理的原生语料是一堆文档的集合，每一篇文档又是一些原生字符的集合。在交给Gensim的模型训练之前，我们需要将这些原生字符解析成Gensim能处理的稀疏向量的格式。由于语言和应用的多样性，Gensim没有对预处理的接口做出任何强制性的限定。通常，我们需要先对原始的文本进行分词、去除停用词等操作，得到每一篇文档的特征列表。
如一篇文档由四个句子组成，那么输入形式为：