项目中要对短文本进行相似度估计,word2vec是一个很火的工具。本文就word2vec的训练以及加载进行了总结。
word2vec的原理就不描述了,word2vec词向量工具是由google开发的,输入为文本文档,输出为基于这个文本文档的语料库训练得到的词向量模型。通过该模型可以对单词的相似度进行量化分析。
word2vec的训练方法有2种,一种是通过word2vec的官方手段,在linux环境下编译并执行。
在github上下载word2vec的安装包,然后make编译。查看demo-word.sh脚本,得到word2vec的执行命令:
./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
参数解释:
1)-train:需要训练的语料库,text8为语料库文件名
2)-output:输出的词向量文件,vectors.bin为输出词向量文件名,.bin后缀为二进制文件。若要以文档的形式查看词向量文件,需要将-binary参数的值由1改为0
3)-cbow:是否使用cbow模型进行训练。参数为1表示使用cbow,为0表示不使用cbow
4)-size:词向量的维数,默认为200维。
5)-window: