一、运行环境
Ubuntu16.04 + python 3.5
二、安装gensim
两种安装方式
1)打开终端
sudo easy_install --upgrade gensim
2)打开终端
pip install gensim
三、Git官方GitHub代码
https://github.com/stanfordnlp/GloVe
四、生成词向量
1.在glove文件下打开终端进行编译:
make
编译后生成 bin 文件夹,文件夹内有四个文件:
Readme中有关于四个文件的介绍。
1)vocab_count:计算原文本的单词统计(生成vocab.txt文件)
格式为“单词 词频”如下图: