Windows下使用word2vec进行词向量训练

最新推荐文章于 2022-02-10 13:32:16 发布

杜小白Zero

最新推荐文章于 2022-02-10 13:32:16 发布

阅读量2.2k

点赞数 1

分类专栏：数据分析文章标签： word2vec词向量训练

数据分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

首先在windows环境下需要安装Cygwin软件，安装见上一篇博文。今天主要来记录一下怎么使用word2vec进行词向量训练。

1.启动cygwin，使用cd命令进入word2vec文件夹下

输入make命令，报如下错误
gcc word2vec.c -o word2vec -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
gcc: 错误：unrecognized command line option ‘-pthread’
makefile:8: recipe for target 'word2vec' failed
make: *** [word2vec] Error 1

说明cygwin中的gcc不支持pthread多线程命令，解决方法是将word2vec目录下的makefile文件：
CFLAGS = -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
这一行注释掉。

2. 将你自己的数据（可以打包成压缩文件），放入word2vec目录下

修改demo-word.sh文件，该文件默认情况下使用自带的text8数据进行训练，如果训练数据不存在，则会进行下载，因为需要使用自己的数据进行训练，所以可以将
if [ ! -e text8.zip ]; then
wget http://mattmahoney.net/dc/text8.zip -O text8.gz
gzip -d text8.gz -f
fi
进行注释，

并将
time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 15
./distance vectors.bin

中的text8更改成自己的训练数据名称test，如果你的数据有后缀，记得带后缀，比如test.txt。
参数解释：
-train 训练数据
-output 结果输入文件，即每个词的向量
-cbow 是否使用cbow模型，0表示使用skip-gram模型，1表示使用cbow模型，默认情况下是skip-gram模型，cbow模型快一些，skip-gram模型效果好一些
-size 表示输出的词向量维数
-window 为训练的窗口大小，8表示每个词考虑前8个词与后8个词（实际代码中还有一个随机选窗口的过程，窗口大小<=5)
-negative 表示是否使用NEG方，0表示不使用，其它的值目前还不是很清楚
-hs 是否使用HS方法，0表示不使用，1表示使用
-sample 表示采样的阈值，如果一个词在训练样本中出现的频率越大，那么就越会被采样
-binary 表示输出的结果文件是否采用二进制存储，0表示不使用（即普通的文本存储，可以打开查看），1表示使用，即vectors.bin的存储类型