Google Word2vec 学习手札

最新推荐文章于 2021-12-21 15:18:57 发布

学术状态抽奖器

最新推荐文章于 2021-12-21 15:18:57 发布

阅读量7.1k

点赞数

分类专栏：机器学习技术手札文章标签： word2vec 谷歌 google 相似度词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mebiuw/article/details/52295138

版权

本文介绍了如何安装和使用Google的Word2vec工具，包括解决mac上的编译问题、使用搜狗语料库进行训练，以及使用PyNLPIR进行分词。详细步骤包括下载源代码、编译、训练模型以及进行相似词搜索。由于训练过程较慢，作者建议在等待期间可进行其他工作。

摘要由CSDN通过智能技术生成

1 前文

其实我自己也不太清楚我要用这个干什么，只是觉得可能有用，所以先装起来吧。

2 安装

这里我按照官方的步骤，并适当的增加相应内容
1、首先下载源代码（需要科学上网法）：
https://code.google.com/archive/p/word2vec/source/default/source
这个代码如果有空，我会转存到国内
2、解压源代码，进入目录执行如下命令：

make

如果在mac上，可能会遭遇这个问题
error: malloc.h: No such file or directory
或相似的malloc.h的报错
解决方法是把源代码里出问题的源文件进行替换：

#include <malloc.h>
替换为
#include <sys/malloc.h>

编译完成后可以运行官方示例,分别执行：

./demo-word.sh
./demo-phrases.sh

./demo-word.sh 和./demo-phrases.sh会下载一些训练集，感觉速度还是比较慢的，在我电脑上我是没法下载的，挂了SS也不行

注意的是，在mac上如果没有安装wget需要先安装wget，推荐使用homebrew安装

brew install wget
sudo brew link wget

3 使用

鉴于Google提供的语料库我难以下载到，所以按照了[1]中的，使用了搜狗的数据这里也贴一下步骤：
1、到搜狗实验室官网下载语料库，下载完整版的，需要注册FTP：
http://www.sogou.com/labs/resource/ca.php

最低0.47元/天解锁文章

学术状态抽奖器

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。