python word2vector_tensorflow-demo

最新推荐文章于 2023-02-04 23:46:13 发布

夏子林

最新推荐文章于 2023-02-04 23:46:13 发布

阅读量181

点赞数

文章标签： python word2vector

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_27697385/article/details/114393828

版权

Vector Representations of Words

背景介绍

传统的自然语言处理一般使用Bag-of-words模型，把每个单词当成一个符号。比如"cat"用Id123表示，"kitty"用Id456表示。用这样的方式表达单词的一个最大坏处是它忽略了单词之间的语义关系。同时Bag-of-words模型也会导致特征矩阵过于稀疏的问题。用向量来表示一个单词(word to vector, embedding)就可以从一定程度上解决这些问题。具体的Word2Vec的背景，方法和应用在这篇文章中都有详述，这里我们就不再赘述。下面我们需要介绍如何将Word2Vec算法在Tensorflow上跑起来以及Word2Vec的一个小应用。

基础版Word2Vec

python word2vec_basic.py

I/O速度提高版

如果已经运行过基础版Word2Vec，那么训练数据已经被下载下来了，否则可以通过下面命令下载数据：

wget http://mattmahoney.net/dc/text8.zip

解压准备好的训练数据：

unzip text8.zip

通过运行训练程序：

python word2vec.py --train_data=text8 --eval_data=questions-words.txt --save_path=/tmp

单机环境下，这个程序可能需要运行10几个小时。

训练速度提高版

如果没有准备数据，那么可以通过上述方法下载数据，数据准备好之后运行：

python word2vec_optimized.py --train_data=text8 --eval_data=questions-words.txt --save_path=/tmp

相比上面的模型，这个方法可以加速~15-20倍。

实现单词加减法

使用上面训练出来的向量

上面几个程序都没有输出最后每个单词得到的向量，如果想要使用上述结果，需要输出每个单词对应的向量，格式如下：

单词1 向量1

单词2 向量2

...

单词n 向量n

其中单词存在self._options.vocab_words中，每个单词对应的embedding在self._emb (word2vec.py)，self._w_in (word2vec_optimized.py)中。

使用已经训练好的向量

网上有很多已经训练好的Word2Vec模型，其中stanford nlp实验室的GloVe就提供了不少模型。可以通过下述命令直接下载：

wget http://nlp.stanford.edu/data/glove.6B.zip

unzip glove.6B.zip

运行单词计算器

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python word2vector_tensorflow-demo

Vector Representations of Words背景介绍传统的自然语言处理一般使用Bag-of-words模型，把每个单词当成一个符号。比如"cat"用Id123表示，"kitty"用Id456表示。用这样的方式表达单词的一个最大坏处是它忽略了单词之间的语义关系。同时Bag-of-words模型也会导致特征矩阵过于稀疏的问题。用向量来表示一个单词(word to vector, em...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。