word2vec编译步骤

最新推荐文章于 2021-12-02 16:49:08 发布

huanruiqi

最新推荐文章于 2021-12-02 16:49:08 发布

阅读量4.1k

点赞数

分类专栏：编程学习文章标签： word2vector

本文链接：https://blog.csdn.net/huanruiqi/article/details/41123235

版权

这篇博客详细介绍了word2vec的编译过程，包括编译源码、示例测试，以及如何寻找中文语料并进行分词。进一步讲解了配置ansj环境后的本地运行步骤，如计算相似词、探索语言学规律、执行聚类命令和短语分析，为word2vec在中文文本分析中的应用提供了全面指导。

摘要由CSDN通过智能技术生成

一、编译源码

1.直接在word2vec下运行make,报错误信息：显示编译参数-Ofast有问题
将-Ofast更改为 -O
2.在上一步的基础上继续编译，报错误信息：识别不了选项参数-Wno-unused-result
查看gcc版本(gcc --version)发现是3.4.5
3.升级gcc版本：
1)下载gcc安装包： wget http://bpkg.baidu.com/gcc-4.8.3/gcc-4.8.3.02-installer.bin
2）直接运行下载到的安装包:sh gcc-4.8.3.02-installer.bin /opt/compiler/gcc-4.8.2
我的开发机器提示目录/opt/compiler/gcc-4.8.2已经存在,已经安装好了
3)开发机使用：
    方法1)设定PATH变量,进行使用export PATH=/opt/compiler/gcc-4.8.2/bin:$PATH
    方法2)使用绝对路径:/opt/compiler/gcc-4.8.2/bin/gcc XXX
    方法3)设定CC变量：export CC=/opt/compiler/gcc-4.8.2/bin/gcc   CC xxx
4)高版本gcc生效确认
which gcc
gcc --version
5)直接make 通过

二、示例测试

1.将文本预料进行分词，以空格,tab隔开都行
2.将分好词的训练语料进行训练，假定语料名称为test.txt且在word2vec目录中
输入：./word2vec -train test.txt -output vectors.bin -cbow 0
-size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
-train:输入文件
-output：输出文件
-cbow：0表示不使用cbow模型,默认为Sk