word2vec编译步骤

这篇博客详细介绍了word2vec的编译过程,包括编译源码、示例测试,以及如何寻找中文语料并进行分词。进一步讲解了配置ansj环境后的本地运行步骤,如计算相似词、探索语言学规律、执行聚类命令和短语分析,为word2vec在中文文本分析中的应用提供了全面指导。
摘要由CSDN通过智能技术生成

一、编译源码


1.直接在word2vec下运行make,报错误信息:显示编译参数-Ofast有问题
  将-Ofast更改为 -O
2.在上一步的基础上继续编译,报错误信息:识别不了选项参数-Wno-unused-result
  查看gcc版本(gcc --version)发现是3.4.5
3.升级gcc版本:
  1)下载gcc安装包: wget http://bpkg.baidu.com/gcc-4.8.3/gcc-4.8.3.02-installer.bin
  2)直接运行下载到的安装包:sh gcc-4.8.3.02-installer.bin /opt/compiler/gcc-4.8.2
  我的开发机器提示目录/opt/compiler/gcc-4.8.2已经存在,已经安装好了
  3)开发机使用:
    方法1)设定PATH变量,进行使用export PATH=/opt/compiler/gcc-4.8.2/bin:$PATH
    方法2)使用绝对路径:/opt/compiler/gcc-4.8.2/bin/gcc XXX
    方法3)设定CC变量:export CC=/opt/compiler/gcc-4.8.2/bin/gcc   CC xxx
4)高版本gcc生效确认
  which gcc
  gcc --version
5)直接make 通过

二、示例测试


1.将文本预料进行分词,以空格,tab隔开都行
2.将分好词的训练语料进行训练,假定语料名称为test.txt且在word2vec目录中
输入:./word2vec -train test.txt -output vectors.bin -cbow 0
-size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
-train:输入文件
-output:输出文件
-cbow:0表示不使用cbow模型,默认为Sk
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值