Google word2vec 环境搭建
分别在linux和windows下搭建,基本步骤包括
- g++环境搭建
- word2vec下载
- 执行make命令
- 执行./demo-word.sh命令
- 输入单词
具体步骤
-
g++环境搭建
它主要是为了word2vec执行 "make " 命令有效,而且如果有可以省略这一步。判断是否有,在命令窗口输入命令g++ -v
-
word2vec下载
这是官方下载地址 word2vec
这是csdn下载地址 word2vec
积分不够的,评论写下你们的地址,或者直接联系 591178251@qq.com -
执行make命令
1.上一步下载之后,解压文件,然后启动命令窗口到达trunk目录下即可,如下图所示
2.执行make命令,如下图所示
命令窗口出现的警告可以忽略。
-
执行./demo-word.sh命令
输入命令为
./demo-word.sh
,如下图所示
这一步的主要任务是下载text8.gz语料和训练词向量等工作。
- 输入单词
如在命令窗口上输入 china
如下图所示
linux环境下word2vec环境搭建完毕,windows环境下的word2vec环境搭建陆续更新。
如有帮助请点个赞,如有问题联系我 591178251@qq.com
获取词向量文本
通过word2vec后可以直接得到文本文件,也可以得到bin文件,这时候就需要将bin文件转换为txt文件,修改相应的文件路径即可,这里用到了python第三方工具包:gensim和codecs。
代码如下:
# -*- coding: utf-8 -*-
import gensim
import codecs
def main():
path_to_model = '/root/桌面/word2vec/trunk/vectors11.bin'
output_file = 'data/obstetrics_word_vector.txt'
bin2txt(path_to_model, output_file)
def bin2txt(path_to_model, output_file):
output = codecs.open(output_file, 'w', 'utf-8')
model = gensim.models.KeyedVectors.load_word2vec_format(path_to_model, binary=True)
print('Done loading Word2Vec!')
vocab = model.vocab
for item in vocab:
vector = list()
for dimension in model[item]:
vector.append(str(dimension))
vector_str = ",".join(vector)
line = item + "\t" + vector_str
output.writelines(line + "\n")
output.close()
if __name__ == "__main__":
main()
词向量文本文件截图如下:
图中为词与它的向量
----------------------------------------------------------------------------------
补充:在windows系统中如何运行呢?
在windows上安装mingw或者cygwin,他们可以模拟linux环境。
安装完mingw后,可以找到下面的软件界面,这个可以安装linux环境相关的包,这里运行word2vec需要安装pthread包来支持多线程。(其他的包,如gcc、g++等,都可以在下面的界面中找到。)
(上面在安装其他包的时候可能会因为网络出现各种各样的问题,所以有时需要借助vpn。)
然后在命令行输入make, 最后命令行输入./demo-word.sh即可。