1 前文
其实我自己也不太清楚我要用这个干什么,只是觉得可能有用,所以先装起来吧。
2 安装
这里我按照官方的步骤,并适当的增加相应内容
1、首先下载源代码(需要科学上网法):
https://code.google.com/archive/p/word2vec/source/default/source
这个代码如果有空,我会转存到国内
2、解压源代码,进入目录执行如下命令:
make
如果在mac上,可能会遭遇这个问题
error: malloc.h: No such file or directory
或相似的malloc.h的报错
解决方法是把源代码里出问题的源文件进行替换:
#include <malloc.h>
替换为
#include <sys/malloc.h>
编译完成后可以运行官方示例,分别执行:
./demo-word.sh
./demo-phrases.sh
./demo-word.sh 和./demo-phrases.sh会下载一些训练集,感觉速度还是比较慢的,在我电脑上我是没法下载的,挂了SS也不行
注意的是,在mac上如果没有安装wget需要先安装wget,推荐使用homebrew安装
brew install wget
sudo brew link wget
3 使用
鉴于Google提供的语料库我难以下载到,所以按照了[1]中的,使用了搜狗的数据这里也贴一下步骤:
1、到搜狗实验室官网下载语料库,下载完整版的,需要注册FTP:
http://www.sogou.com/labs/resource/ca.php