13、三大特征提取器RNN/CNN/Transformer的对比

healed萌

已于 2023-11-28 09:30:28 修改

阅读量1.3k

点赞数

分类专栏：深度学习文章标签： rnn cnn transformer

于 2023-05-23 10:20:31 首次发布

本文链接：https://blog.csdn.net/m0_56642803/article/details/130821132

版权

深度学习专栏收录该内容

6 篇文章 4 订阅

订阅专栏

1 循环神经网络RNN

1.1 传统RNN

在2018年以前，在NLP各个子领域的State of Art的结果都是RNN（此处包含LSTM、GRU等变种）得到的。为什么RNN在NLP领域能够有如此广泛的应用？我们知道如果将全连接网络运用到NLP任务上，其会面临三个主要问题：

对于不同的输入样本，输入和输出可能有不同的长度，因此输入层和输出层的神经元数量无法固定。
从输入文本的不同位置学到的同一特征无法共享。
模型中的参数太多，计算量太大。

为了解决上述问题，我们就有了熟悉的RNN网络结构。其通过扫描数据输入的方式，使得每一个时间步的所有网络参数是共享的，且每个时间步不仅会接收当前时刻的输入，同时会接收上一个时刻的输出，从而使得其能够成功利用过去输入的信息来辅助当前时刻的判断。

在这里插入图片描述

但是，原始的RNN也存在问题，它采取线性序列结构不断从前往后收集输入信息，但这种线性序列结构不擅长捕获文本中的长期依赖关系，如下图所示。这主要是因为反向传播路径太长，从而容易导致严重的梯度消失或梯度爆炸问题。

1.2 长短期记忆网络(LSTM)

传统RNN的做法是将的所有知识全部提取出来，不作任何处理的输入到下一个时间步进行迭代。就像参加考试一样，如果希望事先把书本上的所有知识都记住，到了考试的时候，早期的知识恐怕已经被近期的知识完全覆盖了，提取不到长远时间步的信息是很正常的。而人类是这样做的吗？显然不是的，我们通常的做法是对知识有一个理性性判断，重要的知识给予更高的权重，重点记忆，不那么重要的可能没多久就忘了，这样，才能在面对考试的时候有较好的发挥。

在我看来，LSTM的结构更类似于人类对于知识的记忆方式。理解LSTM的关键就在于理解两个状态 $C_t$ 和 $h_t$ 和内部的三个门机制：

在这里插入图片描述

图中我们可以看见，LSTM Cell在每个时间步接收上个时间步的输入有两个，传给下一个时间步的输出也有两个。通常，我们将 $C_t$ 看作全局信息， $h_t$ 看作全局信息对下一个Cell影响的隐藏状态。

遗忘门、输入门(图中的update gate)和输出门分别都是一个激活函数为sigmoid的小型单层神经网络。由于sigmoid在(0,1)(0,1)范围内的取值，有效的用于判断是保留还是“遗忘”信息（乘以接近1的值表示保留，乘以接近0的值表示遗忘），为我们提供了信息选择性传输的能力。这样，我们就很好理解门在LSTM是怎样工作的了：

遗忘门有两个输入：当前时间步的输入 $x_t$ 以及上一层输出的隐藏状态 $h_{t-1}$ ，遗忘门通过这两个输入训练出一个门函数，注意这个门函数的输出是在(0,1)之间的，将其与上一层输出的全局信息 $C_{t-1}$ 相乘，表示全局信息被选择部分遗忘。
对于输入门，我们那同样训练出一个门函数，与此同时，将接收到的 $h_{t-1}$ 和 $x_t$ 一起通过一个激活函数为tanh的小型神经网络，这一部分与传统RNN无异了，就是将上一时刻得到的信息与该时刻得到的信息进行整合。将整合信息与门函数的输出相乘，相当于同样选择有保留的提取新信息，并将其直接加在全局信息中去。
对于输出门，同样的训练出一个门函数，与此同时，将新的隐藏状态 $C_t$ 通过一个简单的tanh函数(仅仅是激活函数)后与门函数的输出相乘，则可以得到该时刻全局信息对下一个Cell影响的隐藏状态 $h_{t}$

LSTM还是有其局限性：时序性的结构一方面使其很难具备高效的并行计算能力（当前状态的计算不仅要依赖当前的输入，还要依赖上一个状态的输出），另一方面使得整个LSTM模型（包括其他的RNN模型，如GRU）总体上更类似于一个马尔可夫决策过程，较难以提取全局信息。

GRU于LSTM两者之间的性能往往差别不大，但GRU相对来说参数量更少，收敛速度更快。对于较少的数据集我建议使用GRU就已经足够了，对于较大的数据集，可以试试有较多参数量的LSTM有没有令人意外的效果。

2 卷积神经网络CNN

CNN是计算机视觉领域的重大突破，也是目前用于处理CV任务模型的核心。CNN同样适用于NLP任务中的特征提取，但其使用场景与RNN略有不同，关于二维卷积核的运算如下图所示。

在这里插入图片描述

从数据结构上来看，CV任务中的输入数据为图像像素矩阵，其各个方向上的像素点之间的相关性基本上是等同的。而NLP任务中的输入数据通常为序列文本，假设句子长度为n，我们词向量的维度为d，我们的输入就成了一个n×d的矩阵，显然，该矩阵的行列“像素”之间的相关性是不一样的，矩阵的同一行为一个词的向量表征，而不同行表示不同词。要让卷积网络能够正常的“读”我们的文本，我们在NLP中就需要使用一维卷积。Kim在2014年首次将CNN用于NLP中的文本分类任务，其提出的网络结构如下图所示：

在这里插入图片描述

可以看见，一维卷积与二维卷积不同的是，每一个卷积核的宽度与词向量的维度d是相同的，以保证卷积核每次处理n个词的完整词向量，从上往下依次滑动卷积，这个过程中的输出就成了我们需要的特征向量。这就是CNN抽取特征的过程。在卷积层之后通常接上Max Pooling层（用于抽取最显著的特征），用于对输出的特征向量进行降维提取操作，最后再接一层全连接层实现文本分类。

虽然传统CNN经过简单的改变之后可以成功的应用于NLP任务，且效果还不错，但效果也仅仅是“不错“而已，很多任务还是处于完全被压制的情况。这表明传统的CNN在NLP领域中还是存在一些问题。

谈到CNN在NLP界的进化，我们首先来看看Kim版CNN存在哪些问题。

Kim版CNN实际上类似于一个k-gram模型(k即卷积核的window，表示每次卷积的时候覆盖多少单词)，对于一个单层的k-gram模型是难以捕捉到距离d≥kd≥k的特征的；
卷积层输出的特征向量是包含了位置信息的(与卷积核的卷积顺序有关)，在卷积层之后接Max Pooling层（仅仅保留提取特征中最大值）将导致特征信息中及其重要的位置编码信息丢失。

为了解决上述问题，研究者们采取了一系列方法对Kim版的CNN进行改进。

解决长远距离的信息提取的一个主要方法就是可以把网络做的更深一些，越深的卷积核将会有更大的感受野，从而捕获更远距离的特征。
另外，我们也可以采用膨胀卷积(Dilated Convolution)的方式，也就是说我们的卷积窗口不再覆盖连续区域，而是跳着覆盖，这样，同样尺寸的卷积核我们就能提取到更远距离的特征了。当然这里的空洞卷积与CV中的还是不一样的，其仅仅在词间存在空洞，在词向量内部是不存在空洞的。在苏神的博客里对比了同样window=3的卷积核，膨胀卷积和普通卷积在三层网络时每个神经元的感受野大小，如下图所示，可以看见膨胀卷积的神经元感受野的范围是大大增加的。
为了防止文本中的位置信息丢失，NLP领域里的CNN的发展趋势是抛弃Pooling层，靠全卷积层来叠加网络深度，并且在输入部分加入位置编码，人工将单词的位置特征加入到对应的词向量中。位置编码的方式可以采用《Attention is All You Need》中的方案，在下面介绍Transformer的时候再详细介绍
我们知道在CV领域中，网络做深之后将存在一系列问题，因此有了残差网络。在NLP中同样可以使用残差网络，解决梯度消失问题，解决梯度消失问题的本质是能够加速信息流动，使简单的信息传输可以有更简单的路径，从而使得网络做深的同时，能够保证良好的性能。
激活函数开始采用GLU(Gated Linear Unit)，如下图所示，左右两个卷积核的尺寸完全一样，但是权值参数不共享，然后其中一个通过一个sigmoid函数，另一个不通过，将两者相乘。是不是感觉有点熟悉，这其实与LSTM中的门机制是相同的效果，该激活函数可以自行控制输出的特征的强弱大小。
在苏神的博客中还学到另一个应用，就是可以用window=1window=1的一维卷积对人工合成的词嵌入表征进行特征压缩，从而得到一个更有效的词向量表征方法。

在很多地方都看见CNN比较适用于文本分类的任务，事实上，从《Convolutional Sequence to Sequence Learning》、《Fast Reading Comprehension with ConvNets》等论文与实践报告来看，CNN已经发展成为一种成熟的特征提取器，并且，相比于RNN来说，CNN的窗口滑动完全没有先后关系，不同卷积核之前也没有相互影响，因此其具有非常高的并行自由度，这是其非常好的一个优点。

想要进一步了解 CNN 在 NLP 当中的应用，可以移步到 Convolutional Sequence to Sequence Learning 阅读笔记，这是 CNN 在 Seq2Seq 模型中的一个经典应用，也是 NLP 界的一个重要里程碑，为之后的研究打开了一个更广阔的方向。

3 Transformer

在这里插入图片描述

由上图可知，单个的Transformer Block主要由两部分组成：多头注意力机制(Multi-Head Attention)和前馈神经网络(Feed Forward)。

从语义特征提取能力：Transformer显著超过RNN和CNN，RNN和CNN两者能力差不太多。
长距离特征捕获能力：CNN极为显著地弱于RNN和Transformer，Transformer微弱优于RNN模型，但在比较远的距离上（主语谓语距离大于13），RNN微弱优于Transformer，所以综合看，可以认为Transformer和RNN在这方面能力差不太多，而CNN则显著弱于前两者。这部分我们之前也提到过，CNN提取长距离特征的能力收到其卷积核感受野的限制，实验证明，增大卷积核的尺寸，增加网络深度，可以增加CNN的长距离特征捕获能力。而对于Transformer来说，其长距离特征捕获能力主要受到Multi-Head数量的影响，Multi-Head的数量越多，Transformer的长距离特征捕获能力越强
任务综合特征抽取能力：通常，机器翻译任务是对NLP各项处理能力综合要求最高的任务之一，要想获得高质量的翻译结果，对于两种语言的词法，句法，语义，上下文处理能力，长距离特征捕获等方面的性能要求都是很高的。从综合特征抽取能力角度衡量，Transformer显著强于RNN和CNN，而RNN和CNN的表现差不太多。
并行计算能力：对于并行计算能力，上文很多地方都提到过，并行计算是RNN的严重缺陷，而Transformer和CNN差不多。

4 总结

总上面这些关于Transformer工作的发展中，我也整理出了一些关于深度学习发展趋势的个人心得：

有监督模型向半监督甚至无监督方向发展

数据的规模的增长速度远远超过了数据的标注速度，这也就导致了大量无标签数据的产生。这些无标签的数据并非没有价值，相反，如果找到合适的“炼金术”，将可以从这些海量的数据中获取意想不到的价值。如何利用上这些无标签的数据来改善任务的表现变成了一个越来越无法轻视的问题。
从少量数据复杂模型到大量数据简单模型

深度神经网络的拟合能力非常的强大，一个简单的神经网络模型就足以拟合任何函数。但无奈使用越简单的网络结构完成同一个任务，对数据量的要求也更高。数据量越是上升，数据质量越是提高，往往对模型的要求就会越会降低。数据量越大，模型就越容易捕捉到符合真实世界分布的特征。Word2Vec就是一个例子，它所使用的目标函数非常的简单，但是由于使用了大量的文本，于是训练出的词向量中就包含了许多有趣的特性。
从专用模型向通用模型发展

GPT、BERT、MT-DNN、GPT-2都使用了经过预训练的通用模型来继续进行下游的机器学习任务，并不需要对模型本身再做太多的修改。如果一个模型的表达能力足够的强，训练时候使用的数据量足够的大，那么模型的通用性就会更强，就不需要针对特定的任务做太多的修改。最极端的情况就像是GPT-2这个样子，训练时甚至完全不需要知道后续的下游任务是什么，就能够训练出一个通用的多任务模型。
对数据的规模和质量提高

GPT、BERT、MT-DNN、GPT-2虽然先后刷榜，但是我认为成绩的提升中，数据规模的提升占有比结构调整更大的比重。随着模型的通用化和简单化，为提升模型的性能，今后更多的注意力将会从如何设计一个复杂、专用的模型转移到如何获取、清洗、精化出质量更加出众的、大量的数据上。数据的处理方式调整的作用将会大于模型结构调整的作用。

综上所述，DL竞赛迟早要成为大厂间拼资源、拼算力的较量。可能几年内就会出现一个新的课题：绿色AI，低碳AI，可持续AI。