学习 ITEM2VEC: NEURAL ITEM EMBEDDING FOR COLLABORATIVE FILTERING

最新推荐文章于 2021-05-18 10:17:37 发布

柯莹

最新推荐文章于 2021-05-18 10:17:37 发布

阅读量300

点赞数 1

分类专栏：算法文章标签： Word2vec softmax logistics skip-gram COBW

本文链接：https://blog.csdn.net/u011974997/article/details/73549088

版权

算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1 学习什么是Word2vec

1）词向量

One-hot Representation

Distributed Representation

http://licstar.net/archives/328

2）logistics回归

https://en.wikipedia.org/wiki/Logistic_function

3）softmax函数

https://en.wikipedia.org/wiki/Softmax_function

4）word2vec

https://iksinc.wordpress.com/tag/skip-gram-model/

1 连续bag-of -words(COBW) :从上下文预测一个字

2 skip-gram：从一个文字预测上下文

Word2vec使用单个隐藏层，完全连接的神经网络如下所示。隐层中的神经元都是线性神经元。输入层被设置为具有与用于训练的词汇表中的单词一样多的神经元。将隐藏层大小设置为所得到的字向量的维度。输出层的大小与输入层相同。因此，假设用于学习字向量的词汇由V字和N构成为词向量的维度，则隐含层连接的输入可以由大小为VxN的矩阵WI表示，每行表示词汇单词。同样，从隐层到输出层的连接可以由大小为NxV的矩阵WO描述。在这种情况下，WO矩阵的每列表示来自给定词汇表的单词。使用“ 1-of-V ”表示对网络的输入进行编码，这意味着只有一条输入线被设置为1，其余的输入线被设置为零。

截图2015-04-10 at 4.16.00 PM

要更好地处理Word2vec如何工作，请考虑具有以下句子的训练语料库：

“狗看见一只猫”，“狗追猫”，“猫爬树”

语料库词汇有八个字。一旦按字母顺序排列，每个单词都可以由其索引引用。对于这个例子，我们的神经网络将有八个输入神经元和八个输出神经元。让我们假设我们决定在隐藏层中使用三个神经元。这意味着WI和WO分别为8×3和3×8矩阵。在训练开始之前，这些矩阵被初始化为小的随机值，如通常在神经网络训练中。为了说明起见，让我们假设WI和WO被初始化为以下值：

WI =

屏幕截图2015-04-10 at 8.54.39 PM

W0 =

截图2015-04-10 at 8.54.57 PM

假设我们希望网络学习“猫”和“爬”之间的关系。也就是说，当“猫”输入到网络时，网络应该显示“爬”的可能性很高。在词嵌入术语中，单词“cat”被称为上下文单词，并将单词“climbed”称为目标单词。在这种情况下，输入矢量X将为[0 1 0 0 0 0 0 0] t。请注意，只有向量的第二个分量是1，这是因为输入的单词是“cat”，它在语料库单词的排序列表中保持两个位置。给定目标词“爬”，目标矢量将看起来像[0 0 0 1 0 0 0 0] t。

使用输入向量代表“猫”，隐层神经元的输出可以计算为

H t = X t WI = [-0.490796 -0.229903 0.065460]

不要让我们惊讶的是，隐藏的神经元输出的向量H由于1-out-V表示而模拟WI矩阵的第二行的权重。所以输入到隐层连接的功能基本上是将输入字向量复制到隐层。对隐藏输出层进行类似的操作，输出层神经元的激活向量可以写为

H t WO = [0.100934 -0.309331 -0.122361 -0.151399 0.143463 -0.051262 -0.079686 0.112928]

由于目标是为输出层中的单词产生概率，所以对于k = 1的Pr（词k |词上下文）V来反映其与输入端的上下文单词的下一个单词关系，我们需要神经元输出的和输出层添加到一个。Word2vec通过使用softmax函数将输出层神经元的激活值转换为概率来实现此目的。因此，通过以下表达式来计算第k个神经元的输出，其中激活（n）表示第n个输出层神经元的激活值：

截图2015-04-12 at 10.00.48 PM

因此，语料库中八个词的概率是：

0.143073 0.094925 0.114441 0.111166 0.149289 0.122874 0.119431 0.144800

大胆的概率是所选择的目标词“爬”。给定目标向量[0 0 0 1 0 0 0 0] t，可以通过从目标向量中减去概率向量来容易地计算输出层的误差向量。一旦知道了错误，可以使用反向传播更新矩阵WO和WI中
的权重。因此，训练可以通过从语料库呈现不同的上下文目标词对来进行。实质上，这是Word2vec如何学习单词之间的关系，并且在该过程中开发语料库中单词的向量表示。

连续的单词（CBOW）学习

上述描述和架构是为了学习一对单词之间的关系。在连续的单词模型中，上下文由给定目标词的多个单词表示。例如，我们可以使用“cat”和“tree”作为“爬”的上下文单词作为目标单词。这需要修改神经网络架构。如下所示的修改包括将隐藏层连接的输入C次复制到上下文单词的数量，以及在隐藏层神经元中添加除以C操作。

截图2015-04-12在10.58.21 PM

通过上述配置来指定C上下文单词，使用1进制V表示来编码的每个单词意味着隐含层输出是对应于输入处的上下文单词的单词向量的平均值。输出层保持不变，训练以上述方式进行。

Skip-Gram模型

Skip-gram模型反转了目标和上下文单词的使用。在这种情况下，目标字在输入端被馈送，隐层保持相同，并且神经网络的输出层被多次复制以适应所选数量的上下文单词。以“猫”和“树”为例作为上下文单词，以“爬”为目标字，舍略模型中的输入向量为[0 0 0 1 0 0 0 0] t，而两个输出层将分别具有[0 1 0 0 0 0 0 0] t和[0 0 0 0 0 0 0 1] t作为目标向量。代替产生一个概率向量，将为当前示例生成两个这样的向量。按照上述方式产生每个输出层的误差向量。然而，将所有输出层的误差向量相加，以通过反向传播来调整权重。这确保了通过训练，每个输出层的重量矩阵WO都保持相同。

柯莹

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习 ITEM2VEC: NEURAL ITEM EMBEDDING FOR COLLABORATIVE FILTERING

1 学习什么是Word2vec1）词向量One-hot RepresentationDistributed Representationhttp://licstar.net/archives/3282）logistics回归https://en.wikipedia.org/wiki/Logistic_function3）softmax函数https:
复制链接

扫一扫