1
计算词距离
1.
可以直接运行
demo
脚本:
./demo-word.sh
过程中需要训练数据
text8
(是英文数据奥),如果没有,程序会主动下载并解压,
但是如果万一下载失败什么的,你可以根据报错中的
text8
的下载地址
http://mattmahoney.net/dc/text8.zip
自行下载解压,放到脚本所在目录下。根
据个人经验,在运行程序的
linux
机器上下载得到的
zip
文件可以解压,而另外的
windows
机器上下载下的
zip
包解压报错
2.
直接使用
word2vec
命令和
distance
命令
在训练数据已有的情况下,可以直接运行
word2vec
命令生成矩阵
./word2vec -train text8 -output vectors.bin -cbow 0 -size 200 -window 5
-negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
然后运行
./distance vectors.bin
,打开类似上面的命令行界面,输入某个词,得到
相关词。
词聚类
word2vec
也可以进行词的聚类,使用下面的命令
./word2vec -train text8 -output classes.txt -cbow 0 -size 200 -window 5
-negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500
那么,
classes.txt
里面就是聚类结果
grep classes.txt
获取类号为的聚类
grep classes.txt
获取词的聚类号