自监督学习：词向量的实现：Skip-gram的实现

灰太狼家的小鸭子

已于 2023-03-30 18:50:20 修改

阅读量398

点赞数

分类专栏：深度学习文章标签： rnn 深度学习人工智能

于 2023-03-24 16:39:39 首次发布

本文链接：https://blog.csdn.net/JEREMY_GYJ/article/details/129752746

版权

20 篇文章 1 订阅

订阅专栏

词转为词向量的过程：

三层结构：

输入层：输入参数是V=(1 * 5000)的张量，表示当前句子中心词的ont_hot;
隐藏层：隐藏层的参数 W1=(5000 * 128) 也叫词向量，隐藏层的输出是R1=(1 * 128) ,表示当前句子中心词得词向量。
输出层：输入参数是：R1=(1 *128) ,输出层的参数W2=(128 * 5000)，W2也叫词向量，输出大小是R2=（1 * 5000）,经过softmax变换就可以得到上下文预测的结果。
在实际操作中，使用一个滑动窗口（一般情况下，长度是奇数），从左到右开始扫描当前句子。每个扫描出来的片段被当成一个小句子，每个小句子中间的词被认为是中心词，其余的词被认为是这个中心词的上下文。

代表中心词的tensor：假设我们称之为center_words V，一般来说，这个tensor是一个形状为[batch_size, vocab_size]的one-hot tensor，表示在一个mini-batch中，每个中心词的ID，对应位置为1，其余为0。
代表目标词的tensor：目标词是指需要推理出来的上下文词，假设我们称之为target_words T，一般来说，这个tensor是一个形状为[batch_size, 1]的整型tensor，这个tensor中的每个元素是一个[0, vocab_size-1]的值，代表目标词的ID。

对于给定的输入V=[batch_size,vocab_size]，声明一个形状为W0=[vocab_size, embedding_size]的张量，作为需要学习的词向量，记为W0。使用向量乘法，将V乘以W0，这样就得到了一个形状为[batch_size, embedding_size]的张量，记H=V×W0。这个张量H就可以看成是经过词向量查表后的结果。
将上一步得到的H=[batch_size,embedding_size]去乘以W1，声明另外一个需要学习的参数W1，这个参数的形状为W1=[embedding_size, vocab_size]。得到一个新的tensor O=H×W1，此时的O是一个形状为O=[batch_size, vocab_size]的tensor，表示当前这个mini-batch中的每个中心词预测出的目标词的概率。
使用softmax函数对mini-batch中每个中心词的预测结果做归一化，即可完成网络构建。

代表中心词的tensor：假设我们称之为center_words V，一般来说，这个tensor是一个形状为[batch_size, vocab_size]的one-hot tensor，表示在一个mini-batch中每个中心词具体的ID。
代表目标词的tensor：假设我们称之为target_words T，一般来说，这个tensor同样是一个形状为[batch_size, vocab_size]的one-hot tensor，表示在一个mini-batch中每个目标词具体的ID。
代表目标词标签的tensor：假设我们称之为labels L，一般来说，这个tensor是一个形状为[batch_size, 1]的tensor，每个元素不是0就是1（0：负样本，1：正样本）。