新版gensim Word2Vec使用指南

最新推荐文章于 2022-12-28 12:01:06 发布

扣德夫特

最新推荐文章于 2022-12-28 12:01:06 发布

阅读量6.7k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： NLP 文章标签： NLP Word2Vec 使用指南

本文链接：https://blog.csdn.net/HappyCtest/article/details/85091686

本文是关于gensim Word2Vec的使用指南，包括安装、训练模型、模型保存加载、词向量操作等内容。通过实例展示了如何训练、调整参数及使用训练后的词向量，并提供相关参考资料。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

最近两天在学习Word2Vec这个算法，它是NLP领域中非常常用的基础算法，它的作用就是将语料库中的词转化为向量，以便后续在词向量的基础上进行各种计算。这个算法的讲解可以从网络上很容易搜索到，这里就不赘述。

Word2Vec算法已经被实现和封装在Python库gensim中，可以很简单的调用。然而在这两天的尝试中，我发现由于gensim的API发生了变化，很多博客的内容已经不能使用，而且他们的使用说明也不是很清楚，所以决定写下这一篇博文。本文内容参考gensim官网教程，结合现有的博文，所有内容都经过亲自尝试，在当前gensim版本下应该完全work的。

安装gensim

安装很简单，就用pip安装：

pip install --upgrade gensim

或者对于conda的环境：

conda install -c conda-forge gensim

目前最新版本：3.4.0
依赖的相关环境：
Python >= 2.7 (tested with versions 2.7, 3.5 and 3.6)
NumPy >= 1.11.3
SciPy >= 0.18.1
Six >= 1.5.0
smart_open >= 1.2.1

常用功能

训练模型

常用的导入训练数据的方法有两种，第一种是使用Python的内置列表，一个简单的栗子：

# 导入gensim库
from gensim.models import Word2Vec
# 第一种输入方式：Python内置列表
sentences = [['first', 'sentence'], ['second', 'sentence']]
# 调用函数训练模型
model = Word2Vec(sentences) # 调用之后，Word2Vec的模型就训练好了