word2vec的详细实例介绍（包含jieba分词提供的语料）

最新推荐文章于 2024-08-16 15:57:51 发布

在蓝天下飞翔

最新推荐文章于 2024-08-16 15:57:51 发布

阅读量1.9w

点赞数 7

分类专栏： word2vec 表示学习词向量文章标签： word2vec 自然语言处理 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dongyang_zhao/article/details/78703831

版权

word2vec 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

原创实在不易，欢迎大家关注我微信公众号：阳洋up

重要参考博客：word2vec中文相似词计算和聚类的使用说明及c语言源码_杨秀璋的专栏-CSDN博客_word2vec词语相似度

https://www.cnblogs.com/Newsteinwell/p/6034747.html

1、下载地址及安装

官网C语言下载地址：http://word2vec.googlecode.com/svn/trunk/（如果失效，可以直接下载我分享的压缩包）

1) 半自动安装：先下载http://pypi.python.org/pypi/jieba/，解压后运行 `sudo python setup.py install

2) 运行 make编译word2vec工具

3) 再运行示例脚本：./demo-word.sh

2、中文语料

语料是我从地球物理领域里面收集的，内容主要是关于地球物理反演的简单介绍，字数2000+。

Word2vec的输入是分好词的文本，我用的分词工具是jieba，用到的命令如下：

jieba分词程序：

import jieba

import codecs

jieba.load_userdict("newdict.txt") //引入自定义词典，如果不需要，可不考虑

with open('geophysics.txt', 'r') as f: //geophysics.txt文件是jieba的输入文本

for line in f:

seg =jieba.cut(line.strip(), cut_all = False)

s='/'.join(seg)

m=list(s)

withopen('geophysicsdone.txt','a+')as f: //geophysicsdone.txt文本是分词后的输出文本

for word in m:

f.write(word.encode('utf-8')) // utf-8是编辑格式

3、word2vec中将文本进行训练（计算相似距离）

具体命令解释如下：

Result_Country.txt文本是jieba的输出文本

vectors.bin文件是训练后的输出

4、结果展示

1）运行 ./distancevectors.bin

计算相似距离的3个例子：

输入词：地球物理

输入词：研究

输入词：地震波

2）运行 ./word2vec -train test.txt -output vec.txt-size 50 -window 5 -sample 1e-4 -negative 5 -hs 0 -binary 0 -cbow 1 -iter 3

将词都转换成向量：

命令中的参数意义请参照：Word2Vec的参数解释_小白_努力-CSDN博客_word2vec参数

2维：

20维：

在蓝天下飞翔

关注

7
点赞
踩
36

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。