Google word2vec 环境搭建

最新推荐文章于 2024-08-16 15:57:51 发布

爱做梦真是太好了

最新推荐文章于 2024-08-16 15:57:51 发布

阅读量5.6k

点赞数 10

分类专栏：深度学习神经网络机器学习文章标签：深度学习 word2vec

本文链接：https://blog.csdn.net/github_37412255/article/details/78360971

版权

机器学习同时被 3 个专栏收录

10 篇文章 1 订阅

订阅专栏

深度学习

8 篇文章 0 订阅

订阅专栏

神经网络

3 篇文章 0 订阅

订阅专栏

Google word2vec 环境搭建

分别在linux和windows下搭建，基本步骤包括

g++环境搭建
word2vec下载
执行make命令
执行./demo-word.sh命令
输入单词

具体步骤

g++环境搭建
它主要是为了word2vec执行 "make " 命令有效，而且如果有可以省略这一步。判断是否有，在命令窗口输入命令 g++ -v
word2vec下载

这是官方下载地址 word2vec
这是csdn下载地址 word2vec
积分不够的，评论写下你们的地址，或者直接联系 591178251@qq.com
执行make命令

1.上一步下载之后，解压文件，然后启动命令窗口到达trunk目录下即可，如下图所示

在这里插入图片描述

2.执行make命令，如下图所示
在这里插入图片描述

 命令窗口出现的警告可以忽略。

执行./demo-word.sh命令

输入命令为 ./demo-word.sh，如下图所示

这一步的主要任务是下载text8.gz语料和训练词向量等工作。

输入单词

如在命令窗口上输入 china 如下图所示

这里写图片描述

linux环境下word2vec环境搭建完毕，windows环境下的word2vec环境搭建陆续更新。

如有帮助请点个赞，如有问题联系我 591178251@qq.com

获取词向量文本

通过word2vec后可以直接得到文本文件，也可以得到bin文件，这时候就需要将bin文件转换为txt文件，修改相应的文件路径即可，这里用到了python第三方工具包：gensim和codecs。
代码如下：

# -*- coding: utf-8 -*-
import gensim
import codecs


def main():
    path_to_model = '/root/桌面/word2vec/trunk/vectors11.bin'
    output_file = 'data/obstetrics_word_vector.txt'
    bin2txt(path_to_model, output_file)


def bin2txt(path_to_model, output_file):
    output = codecs.open(output_file, 'w', 'utf-8')
    model = gensim.models.KeyedVectors.load_word2vec_format(path_to_model, binary=True)
    print('Done loading Word2Vec!')
    vocab = model.vocab
    for item in vocab:
        vector = list()
        for dimension in model[item]:
            vector.append(str(dimension))
        vector_str = ",".join(vector)
        line = item + "\t" + vector_str
        output.writelines(line + "\n")
    output.close()


if __name__ == "__main__":
    main()

词向量文本文件截图如下：
这里写图片描述
图中为词与它的向量

----------------------------------------------------------------------------------
补充：在windows系统中如何运行呢？

在windows上安装mingw或者cygwin，他们可以模拟linux环境。
安装完mingw后，可以找到下面的软件界面，这个可以安装linux环境相关的包，这里运行word2vec需要安装pthread包来支持多线程。（其他的包，如gcc、g++等，都可以在下面的界面中找到。）
在这里插入图片描述
(上面在安装其他包的时候可能会因为网络出现各种各样的问题，所以有时需要借助vpn。)
然后在命令行输入make，最后命令行输入./demo-word.sh即可。