递归神经网络|深度学习（李宏毅）（十六）

最新推荐文章于 2024-07-08 09:27:29 发布

酷酷的群

最新推荐文章于 2024-07-08 09:27:29 发布

阅读量549

点赞数

分类专栏：深度学习（李宏毅）文章标签：神经网络网络机器学习算法深度学习

本文链接：https://blog.csdn.net/weixin_42431920/article/details/111997852

版权

深度学习（李宏毅）专栏收录该内容

23 篇文章 13 订阅

订阅专栏

李宏毅老师深度学习系列2020

一、递归神经网络与循环神经网络

该部分以情感分析任务为例来说明递归神经网络（recursive neural network）和循环神经网络（recurrent neural network）的关系。

如下图所示，在使用RNN来搭建情感分析神经网络模型时，我们首先使用word embedding的方法来将获取句子的embedding序列，然后将序列中的每一个token的embedding输入到RNN中，最后将最后一个时间点的输出向量输入到一个分类器（可以是一个前馈网络）中来完成情感分类任务。而使用递归结构时需要事先确定文本序列的结构信息，然后按照文本的结构来按顺序将embedding向量输入到 $f$ 中， $f$ 可以是一个神经网络，最终需要将最后一个 $f$ 的输入输入到分类器 $g$ 中获得情感分类的结果：

情感分析

循环神经网络可以看做递归神经网络的特殊情况，递归神经网络需要事先定义序列内token的关系来决定输入的顺序，只要定义这个顺序和循环神经网络一样，递归神经网络就成了循环神经网络。

二、递归神经网络

该部分以一个具体的例子来说明递归神经网络的设计。

架构

对于一个词序列比如“not very good”，我们首先需要做的是获得其文法结构，这一步可以通过调用一些语法分析的工具包来办到。然后将词序列输入到递归神经网络 $f$ 中时要按照文法结构的顺序。在下图中我们先将“very”和“good”输入到 $f$ 中，假设每个词向量的维度都是 $∣ Z ∣$ ，因此这个 $f$ 的输入的维度就是 $2\times |Z|$ （也就是将两个词的embedding向量拼接起来输入到 $f$ 中），输出就是 $∣ Z ∣$ 。我们希望每个词的embedding代表了该词的含义，而 $f$ 的输出代表两个词结合后的含义，比如图中 $f$ 的输出代表了“very good”的含义：

递归神经网络

通常 $f$ 不会是两个输入向量的简单相加，因为获取两个词结合起来的意思可能需要比较复杂的函数来拟合，举例来说：

Case1:
not:neutral
good:positive
not good:negative
Case2:
好棒:positive
棒:positive
好棒棒:negative

通过上面的例子可以想象两个词向量的简单相加是不能表达其结合起来的意义的，因此 $f$ 通常是一个神经网络。在下面两图中，我们使用蓝色来代表positive的意思，橙色来代表negative的意思。两张图分别表达了“not”要将跟其结合的词的意义转向（reverse），而“very”要将跟其结合的词的意义加强（emphasize），因此 $f$ 需要是一个复杂的神经网络：

not

very

训练这个网络的整个过程如下，将所有词按照文法结构输入给 $f$ ，最终将 $f$ 的输入输入到分类器 $g$ 中最终得到类别的分布，然后再将这个分布跟标签取loss然后更新网络的参数：

网络 $f$ 的设计

前面说过， $f$ 不能是两个输入向量的简单相加，下图这种 $f$ 的设计方式会使得输入向量 $a$ 和 $b$ 由很少的交互，最终 $f$ 输出的 $p$ 的每一维度都只是 $a$ 和 $b$ 的简单相加，因此 $f$ 仍需要更复杂的设计：

f的结构

Recursive Neural Tensor Network

下面介绍的这种 $f$ 的设计中包含了Tensor Network的结构，因此叫做Recursive Neural Tensor Network。下图展示了这种 $f$ 的具体设计：

Recursive Neural Tensor Network

我们定义 $a$ 和 $b$ 拼接起来的向量为 $x$ ，图中方框内的部分会得到一个标量 $\sum _{i,j}W_{ij}x_{i}x_{j}$ ，这样 $a$ 和 $b$ 就因为有了更多的相乘的关系而有了更强的交互。这里使用了多个方框中的结构是为了能够得到一个向量与加号右边的部分相加。需要注意多个方框内的 $W$ 是不同的。

Matrix-Vector Recursive Network

Matrix-Vector Recursive Network这种设计虽然在效果上不如上述方法，但其设计思想值得学习一下。这种方法做的主要的假设是一个词的embedding的一部分代表这个词的意义，另一部分代表这个词如何去影响别的词：

每个输入的词的一部分代表其含义，另一部分代表其如何影响别的词，我们将这一部分排列成一个矩阵。当两个词（以“not”和“good”为例）同时输入到函数 $f$ 中时，每个词的代表含义的向量将和另一个词的代表影响的矩阵相乘得到两个向量，然后将这两个向量拼接起来再乘以一个权重矩阵 $W$ 得到新的含义向量；每个词的影响矩阵会拼接到一起然后乘以一个一个权重矩阵 $W_M$ 得到新的影响矩阵，然后将含义向量和影响矩阵排列成新的向量在通过激活函数就是 $f$ 的输出。该过程如下图所示：