Python版的Word2Vec -- gensim 学习手札中文词语相似性度量 V1.1

本文链接：https://blog.csdn.net/MebiuW/article/details/52303622

本文介绍了如何使用gensim在Python中实现Word2Vec，重点是训练模型、保存与加载，以及如何在语料库更新时进行模型的在线训练。文章详细阐述了安装gensim的步骤，并提供了遇到问题的解决方案。

摘要由CSDN通过智能技术生成

前言

相关内容链接：第一节：Google Word2vec 学习手札
昨天好不容易试用了一下Google自己提供的Word2Vector的源代码，花了好长时间训练数据，结果发现似乎Python并不能直接使用，于是上网找了一下Python能用的Word2Vector，这么一找，就找到了gensim

gensim（应该要翻墙）：
http://radimrehurek.com/gensim/models/word2vec.html

安装

gensim有一些依赖，首先请先确保你安装了这些东西：

Python >= 2.6. Tested with versions 2.6, 2.7, 3.3, 3.4 and 3.5. Support for Python 2.5 was discontinued starting gensim 0.10.0; if you must use Python 2.5, install gensim 0.9.1.

NumPy >= 1.3. Tested with version 1.9.0, 1.7.1, 1.7.0, 1.6.2, 1.6.1rc2, 1.5.0rc1, 1.4.0, 1.3.0, 1.3.0rc2.

SciPy >= 0.7. Tested with version 0.14.0, 0.12.0, 0.11.0, 0.10.1, 0.9.0, 0.8.0, 0.8.0b1, 0.7.1, 0.7.0.

还有一点特别注意的是，保证你的系统有C的编译器，不然速度会很慢，其实你可以首先编译一下Google官方的C语言版的试试，然后在安装gensim，gensim的word2vector用了官方的代码

根据官网的安装指南，有两种方法可以选择：
使用easy_install 或者pip，注意这两者可能都需要sudo申请更高的权限

easy_install -U gensim
或者（这个相对于官网的，我修改过，实测我的没问题）
pip install --upgrade --ignore-installed six gensim

我使用了第二种方式进行的安装，如果这些依赖没有安装的，可以安装python和相关的工具后，直接使用pip或easy_install安装。

在进行模型训练的时候，如果不安装Cython，无法进行多线程训练，速度很瘦影响，所以接着安装下Cython

pip install cython

1、训练模型：
如果所有安装配置工作都已经做好了，那么可以开始使用gensim了。这里的语料库使用我之前博客里面已经分好词的corpus-seg.txt语料库。这里在完成模型训练后，将他存到一个文件中，这样下次就可以直接使用了。

博客链接： Google

Python版的Word2Vec -- gensim 学习手札 中文词语相似性度量 V1.1

前言

安装

Python版的Word2Vec -- gensim 学习手札中文词语相似性度量 V1.1