google-word2vec学习使用

programmeryu

于 2017-02-27 11:20:30 发布

阅读量2.8k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/programmeryu/article/details/58006617

版权

1.下载google-word2vec的源码

2.在windows系统中安装cygwin工具

3.寻找训练语料

本人使用搜狗全网新闻数据：http://www.sogou.com/labs/resource/ca.php

下载完整版，完整版(711MB)

4.处理语料文件

新闻语料格式说明：

数据格式为

<doc>

<url>页面URL</url>

<docno>页面ID</docno>

<contenttitle>页面标题</contenttitle>

<content>页面内容</content>

</doc>

注意：content字段去除了HTML标签，保存的是新闻正文文本

处理目的：删除无效标签，对有效文本内容进行分词，生成可用于word2vec的训练语料

1）处理文件，将文本文件修改成标准的xml文件

在文件开始位置添加：<?xml version=\"1.0\" encoding=\"UTF-8\"?>\r\n

<docs>\r\n

在文件末尾位置添加：

\r\n</docs>

生成xml文件格式：

<?xml version=\"1.0\" encoding=\"UTF-8\"?>

<docs>

<doc>

<url>页面URL</url>

<docno>页面ID</docno>

<contenttitle>页面标题</contenttitle>

<content>页面内容</content>

</doc>

<doc>

<url>页面URL</url>

<docno>页面ID</docno>

<contenttitle>页面标题</contenttitle>

<content>页面内容</content>

</doc>

.......(此处省略无数个doc)

</docs>

2)使用sax解析xml文本

读取xml中的title和content,使用ansj标题和内容进行分词，将分解结果写入另一个文件中，该文件为训了语料

结果生成的文本语料为2.12 GB

代码下载地址：http://download.csdn.net/detail/programmeryu/9765032

5.使用训练语料训练word2vec

将训练好的语料放入word2vec的项目目录下，修改demo-word.sh文件

make
time ./word2vec -train wordtrain.txt -output vectors.bin -cbow 1 -size 60 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
./distance vectors.bin

wordtrain.txt 语料文本文件名称

vectors.bin 生成的向量文件

size 词向量维数

binary 0为文本储存（可查看） 1为使用（不能打开查看）

运行命令sh demo-word.sh进行语料训练

6.查看近似词和vector.bin文件

生成的vector.bin文件是词向量文件，153 MB

如何利用生成的词向量文件进行文本分类和文本聚类？待续

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。