TensorFlow-9-词的向量表示_tensorflow显示频率是什么-CSDN博客

本文介绍如何使用TensorFlow训练Word2Vec模型，包括Skip-Gram算法原理及其实现过程。通过实例说明了词向量是如何从文本中学习得到的。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今日资料：
https://www.tensorflow.org/tutorials/word2vec
中文版：
http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/word2vec.html

这一节是关于 word2vec 模型的，可以用来学习词的向量表达，也叫‘word embeddings’。

之前写过一篇：word2vec 模型思想和代码实现，里面有 skip－gram 算法的简单实现。
http://www.jianshu.com/p/86134284fa14

今天要看的是如何在 TensorFlow 中训练词向量，主要看一下这个代码：
tensorflow/examples/tutorials/word2vec/word2vec_basic.py

词向量就是用一个具有一定维度的向量来表示一个单词，这样在分布式假设的思想下，我们可以认为出现在相同上下文情景中的词汇都有类似的语义。

word2vec 可以很有效地从文本中学习出词向量，主要有两种算法，Continuous Bag-of-Words model (CBOW) 和 Skip-Gram ，CBOW 根据上下文（’the cat sits on the’）来预测目标词汇（例如，‘mat’），而 Skip-Gram 则相反，它通过已知的目标词汇来预测上下文。

通常的 Neural probabilistic language 是通过极大似然法来条件概率：在给定前面语境的情况下，最大化目标词的概率。
而在 word2vec 中不需要用全概率模型，而是用 logistic regression 来把真实的目标词汇和制造的噪音词汇分开。

目标函数就是，这个也叫 Negative Sampling,

即现在的 loss function 只和随机选出来的 k 个噪声单词有关，而不是整个语料库 V，这样训练比较快。

本节的代码就是用一个 Skip-gram 模型来训练词向量：

例如我们有数据集：
the quick brown fox jumped over the lazy dog
假设使用大小为1的窗口，这样就得到这样一个由(上下文, 目标单词) 组成的数据集：
([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox), …

Skip-Gram 模型是把目标单词和上下文颠倒过来，因此数据集就变成由(输入, 输出)组成的：
(quick, the), (quick, brown), (brown, quick), (brown, fox), …

我们会计算每一对观察值和噪声值的损失函数，例如 sheep 就是个噪音：

整个计算的过程就是我们求出目标函数对 theta 的梯度，然后通过梯度下降法来更新 embedding parameters theta 来最大化目标函数，结果就是 embedding vectors 会不断地移动，直到可以把真实单词和噪声单词很好得区分开。

最后还可以用 t－SNE 来可视化最后的词向量间的距离关系，可以发现具有相似信息的单词距离较近。

1. 先下载数据，words 有17005207 个单词：

url = 'http://mattmahoney.net/dc/'
...
filename = maybe_download('text8.zip', 31344016)
...
words = read_data(filename)

count 就是要统计出 words 里面最高频的 5 万个单词。
dictionary 里的 key 就是 count 里的单词，value 就是频率的排序号。
data 里存的是 words 中每个单词在 dictionary 中的序号，如果不在 5 万里面，就标记为 0.
reverse_dictionary 就是 key value 和 dictionary 里面的互换一下位置：

2. 用最大长度为 span 的 deque 做一个窗口：

span = 2 * skip_window + 1
buffer = collections.deque(maxlen=span)

从 data 中一个一个读，先把一个窗口给读满。
要生成 batch_size 个样本，
每个样本是，先找到当前窗口的 target，然后在这个窗口中，随机生成 num_skips 个 target－context 对，
即会生成：3084 originated -> 12 as 这样的对。
每次生成完一个样本后，窗口向后移动一位，
一直到生成完 batch_size 个。