Google Word2vec 学习手札

本文介绍了如何安装和使用Google的Word2vec工具,包括解决mac上的编译问题、使用搜狗语料库进行训练,以及使用PyNLPIR进行分词。详细步骤包括下载源代码、编译、训练模型以及进行相似词搜索。由于训练过程较慢,作者建议在等待期间可进行其他工作。
摘要由CSDN通过智能技术生成

1 前文

其实我自己也不太清楚我要用这个干什么,只是觉得可能有用,所以先装起来吧。

2 安装

这里我按照官方的步骤,并适当的增加相应内容
1、首先下载源代码(需要科学上网法):
https://code.google.com/archive/p/word2vec/source/default/source
这个代码如果有空,我会转存到国内
2、解压源代码,进入目录执行如下命令:

make

如果在mac上,可能会遭遇这个问题
error: malloc.h: No such file or directory
或相似的malloc.h的报错
解决方法是把源代码里出问题的源文件进行替换:

#include <malloc.h>
替换为
#include <sys/malloc.h>

编译完成后可以运行官方示例,分别执行:

./demo-word.sh
./demo-phrases.sh

./demo-word.sh 和./demo-phrases.sh会下载一些训练集,感觉速度还是比较慢的,在我电脑上我是没法下载的,挂了SS也不行

注意的是,在mac上如果没有安装wget需要先安装wget,推荐使用homebrew安装

brew install wget
sudo brew link wget

3 使用

鉴于Google提供的语料库我难以下载到,所以按照了[1]中的,使用了搜狗的数据这里也贴一下步骤:
1、到搜狗实验室官网下载语料库,下载完整版的,需要注册FTP:
http://www.sogou.com/labs/resource/ca.php

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值