TensorFlow-9-词的向量表示

最新推荐文章于 2023-04-08 17:07:15 发布

Alice熹爱学习

最新推荐文章于 2023-04-08 17:07:15 发布

阅读量8.7k

点赞数 3

分类专栏： TensorFlow TensorFlow 文章标签： word2vec

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/72566754

版权

TensorFlow 同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

TensorFlow

19 篇文章 734 订阅

订阅专栏

今日资料：
https://www.tensorflow.org/tutorials/word2vec
中文版：
http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/word2vec.html

这一节是关于 word2vec 模型的，可以用来学习词的向量表达，也叫‘word embeddings’。

之前写过一篇：word2vec 模型思想和代码实现，里面有 skip－gram 算法的简单实现。
http://www.jianshu.com/p/86134284fa14

今天要看的是如何在 TensorFlow 中训练词向量，主要看一下这个代码：
tensorflow/examples/tutorials/word2vec/word2vec_basic.py

词向量就是用一个具有一定维度的向量来表示一个单词，这样在分布式假设的思想下，我们可以认为出现在相同上下文情景中的词汇都有类似的语义。

word2vec 可以很有效地从文本中学习出词向量，主要有两种算法，Continuous Bag-of-Words model (CBOW) 和 Skip-Gram ，CBOW 根据上下文（’the cat sits on the’）来预测目标词汇（例如，‘mat’），而 Skip-Gram 则相反，它通过已知的目标词汇来预测上下文。

通常的 Neural probabilistic language 是通过极大似然法来条件概率：在给定前面语境的情况下，最大化目标词的概率。
而在 word2vec 中不需要用全概率模型，而是用 logistic regression 来把真实的目标词汇和制造的噪音词汇分开。

目标函数就是，这个也叫 Negative Sampling,

即现在的 loss function 只和随机选出来的 k 个噪声单词有关，而不是整个语料库 V，这样训练比较快。

本节的代码就是用一个 Skip-gram 模型来训练词向量：

例如我们有数据集：
the quick brown fox jumped over the lazy dog
假设使用大小为1的窗口，这样就得到这样一个由(上下文, 目标单词) 组成的数据集：
([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox), …

Skip-Gram 模型是把目标单词和上下文颠倒过来，因此数据集就变成由(输入, 输出)组成的：
(quick, the), (quick, brown), (brown, quick), (brown, fox), …

我们会计算每一对观察值和噪声值的损失函数，例如 sheep 就是个噪音：

整个计算的过程就是我们求出目标函数对 theta 的梯度，然后通过梯度下降法来更新 embedding parameters theta 来最大化目标函数，结果就是 embedding vectors 会不断地移动，直到可以把真实单词和噪声单词很好得区分开。

最后还可以用 t－SNE 来可视化最后的词向量间的距离关系，可以发现具有相似信息的单词距离较近。

1. 先下载数据，words 有17005207 个单词：

url = 'http://mattmahoney.net/dc/'
...
filename = maybe_download('text8.zip', 31344016)
...
words = read_data(filename)

count 就是要统计出 words 里面最高频的 5 万个单词。
dictionary 里的 key 就是 count 里的单词，value 就是频率的排序号。
data 里存的是 words 中每个单词在 dictionary 中的序号，如果不在 5 万里面，就标记为 0.
reverse_dictionary 就是 key value 和 dictionary 里面的互换一下位置：

2. 用最大长度为 span 的 deque 做一个窗口：

span = 2 * skip_window + 1
buffer = collections.deque(maxlen=span)

从 data 中一个一个读，先把一个窗口给读满。
要生成 batch_size 个样本，
每个样本是，先找到当前窗口的 target，然后在这个窗口中，随机生成 num_skips 个 target－context 对，
即会生成：3084 originated -> 12 as 这样的对。
每次生成完一个样本后，窗口向后移动一位，
一直到生成完 batch_size 个。

embeddings 是先随机生成 5万＊128 维，
3. NCE loss 就是训练目标：

4. 用 SGD 优化器去优化目标，
valid_embeddings 是用来检验的 16 个单词的词向量表示，
similarity 是定义验证单词与词汇表中所有单词的相似度：

5. 然后就开始训练模型，num_steps = 100001
每 2000 次迭代后，显示一下平均 loss，
每 10000 次后，计算一下验证单词与所有单词的相似度，并将最相似的 8 个单词显示出来：

6. 最后用 TSNE 将 128 维的词向量降到 2 维，并展示频率最高的 100 个单词：

推荐阅读
历史技术博文链接汇总
也许可以找到你想要的

Alice熹爱学习

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
TensorFlow-9-词的向量表示

今日资料： https://www.tensorflow.org/tutorials/word2vec 中文版： http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/word2vec.html这一节是关于 word2vec 模型的，可以用来学习词的向量表达，也叫‘word embeddings’。之前写过一篇：word2vec
复制链接

扫一扫