深度学习研究综述_深度学习综述-CSDN博客

本文链接：https://blog.csdn.net/qq_43561737/article/details/141310953

在这里插入图片描述

1。基本网络结构

1.1 多层感知器MLP

多层感知器也叫前向传播网络、深度前馈网络，由若干层组成，每一层包含若干个神经单元。激活函数采用径向基函数的多层感知器被称为径向基网络。

在这里插入图片描述

1.2 卷积神经网络CNN

卷积神经网络适合处理空间数据，在计算机视觉领域应用广泛，一维卷积神经网络也被称为时间延迟神经网络，可以用来处理一维数据。
CNN主要由卷积层和池化层组成。卷积层能够保持图像的空间连续性，能将图像的局部特征提取出来。池化层能降低中间隐藏层的维度，减少接下来各层的运算量，并提供了旋转不变性。
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/b247980756bc4f35af009809d8ffd785.png)
ＣＮＮ提供了视觉数据的分层表示，ＣＮＮ每层的权重实 际上学到了图像的某些成分，越高层，成分越具体．ＣＮＮ将 原始信号经过逐层的处理，依次识别出部分到整体．可以对 ＣＮＮ进行可视化来理解 ＣＮＮ：ＣＮＮ的第二层能识别出 拐角、边和颜色；第三层能识别出纹理、文字等更复杂的不 变性；第四层能识别出狗的脸、鸟的腿等具体部位；第五层 能识别出键盘、狗等具体物体．比如说人脸识别，ＣＮＮ先是 识别出点、边、颜色、拐角，再是眼角、嘴唇、鼻子，再是整 张脸．ＣＮＮ容 易 在 ＦＰＧＡ等 硬 件 上 实 现 并 获 得 加 速； ＣＮＮ同一卷积层内权值共享，都为卷积核的权重．ＣＮＮ的局 部连接、权值共享、池化操作等特性减少了模型参数，降 低了网络复杂性，也提供了平移、扭曲、旋转、缩放不变性

1.3循环神经网络RNN

循环神经网络适合处理时序数据，在语音处理、自然语言处理领域应用广泛。

在这里插入图片描述

RNN将上一时刻隐藏层的输出也作为这一时刻隐藏层的输入，能够利用过去时刻的信息，即RNN具有记忆性。RNN在各个时间上共享权重，大幅减少了模型参数。但RNN训练难度较大。

2.网络结构改进

2.1卷积神经网络改进

ＩｍａｇｅＮｅｔ［１８］比赛（ＩｍａｇｅＮｅｔｌａｒｇｅｓｃａｌｅｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎｃｏｍｐｅｔｉｔｉｏｎ，ＩＬＳＶＲＣ）极大促进了卷积神经网络的发展，不断有新发明的卷积神经网络刷新了ＩｍａｇｅＮｅｔ成绩。
1）AlexNet。
Ｈｉｎｔｏｎ为了验证深度学习的有效性，２０１２年参加ＩＬＳＶＲＣ并取得第一名，所用到的神经网络模型被称为ＡｌｅｘＮｅｔ．ＡｌｅｘＮｅｔ网络包含５层卷积层、ｍａｘｐｏｏｌｉｎｇ层和ｄｒｏｐｏｕｔ层，接着连接３层全连接层，最后输出层有１０００个神经元，对应１０００个分类，经过Ｓｏｆｔｍａｘ函数作用后得到每一类的概率．ＡｌｅｘＮｅｔ采用平移、翻转、截取图片一部分等方式来增加训练数据，用ｄｒｏｐｏｕｔ来防止过拟合，用带有动量和权重衰减的批梯度下降方法来训练模型．ＡｌｅｘＮｅｔ用两块ＧＰＵ并行训练了６天，而且采用ＲｅＬＵ作为激活函数比用Ｔａｎｈ训练时间缩短了６倍．ＡｌｅｘＮｅｔ所采用的这一系列技术现在仍然被广泛使用．
2）ZF Net
ＺＦＮｅｔ．ＺＦＮｅｔ是ＩＬＳＶＲＣ２０１３冠军，错误率为１１．２％，ＺＦＮｅｔ可以认为是ＡｌｅｘＮｅｔ的微调，网络层数仍为８．Ｚｅｉｌｅｒ和Ｆｅｒｇｕｓ利用反卷积网络对ＣＮＮ进行可视化来理解ＣＮＮ每一层的作用，可视化帮助找到了比ＡｌｅｘＮｅｔ效果更好的网络结构ＺＦＮｅｔ．ＺＦＮｅｔ所需的训练数据更少，ＡｌｅｘＮｅｔ用１５００万张图片来训练模型，而ＺＦＮｅｔ只用了１３０万张图片．ＡｌｅｘＮｅｔ第一层卷积核为１１×１１，而ＺＦＮｅｔ为７×７，卷积核变小使得ＺＦＮｅｔ在第一层能保留更多的相关信息．
３）ＶＧＧＮｅｔ．
Ｓｉｍｏｎｙａｎ等逐次在ＡｌｅｘＮｅｔ中增加卷积层，比较６种不同深度的网络，研究网络深度的影响．结果表明神经网络越深，效果越好，当增加到１６、１９层时，效果提升明显，１９层的网络被称为ＶＧＧ１９．ＶＧＧＮｅｔ严格采用３×３的卷积核，步长（ｓｔｒｉｄｅ）和填补（ｐａｄｄｉｎｇ）都为１；采用２×２的ｍａｘｐｏｏｌｉｎｇ，步长为２．相比于ＺＦＮｅｔ７×７的卷积核，ＶＧＧＮｅｔ卷积核大小只有３×３，使得模型参数更少，而且连续两层的卷积层使其有７×７卷积核的效果，之后人们通常也使用３×３的卷积核．ＶＧＧＮｅｔ模型用Ｃａｆｆｅ来实现，利用图片抖动来增加训练数据，在图片分类和物体定位任务方面都有很好的效果．
４）ＧｏｏｇＬｅＮｅｔ
．ＧｏｏｇＬｅＮｅｔ是ＩＬＳＶＲＣ２０１４冠军，ｔｏｐ５错误率为６．７％，其网络层数为２２层．ＧｏｏｇＬｅＮｅｔ表明ＣＮＮ不一定是要将卷积层、池化层依次堆叠起来．ＧｏｏｇＬｅＮｅｔ采用Ｉｎｃｅｐｔｉｏｎ模块，模块里的卷积层、池化层是并行的，所以不用选择这一层是用卷积层还是池化层．在Ｉｎｃｅｐｔｉｏｎ模块的最后不直接将所有神经元“拉直”排成一排，而是采用池化将７×７×１０２４变成１×１×１０２４，参数量减少到１／４９，ＧｏｏｇＬｅＮｅｔ总的参数量只有ＡｌｅｘＮｅｔ的１/１2．使用训练好的模型对图片进行分类时，对同一张图片的多张变形图片输出Ｓｏｆｔｍａｘ概率后求平均作为此图片的概率．
5)深度残差网络（ＲｅｓＮｅｔ）
ＲｅｓＮｅｔ是ＩＬＳＶＲＣ２０１５冠军，同一网络赢得图片分类、物体定位、物体检测三项任务冠军，图像分类任务错误率为３．５７％，超过人类错误率５．１％．ＲｅｓＮｅｔ网络层数达到１５２层，甚至１０００层．深层网络有梯度消失的问题，ＲｅｓＮｅｔ在两层或多层之间直接加上线性连通通路，即构成了残差模块，保证梯度能通过线性通路传到底层，也使得输入层的信息能直接保留到后面网络层．
６）Ｒ-ＣＮＮ
Ｇｉｒｓｈｉｃｋ等提出ＲＣＮＮ用于完成计算机视觉中的物体检测任务．物体检测目标是将图片中所有物体用方框框出来，此任务可以分成两个子任务，首先是生成方框将物体框出来，然后对框出来的物体进行分类判断是具体哪个物体．Ｒ-ＣＮＮ采用选择性搜索（ｓｅｌｅｃｔｉｖｅｓｅａｒｃｈ）方法生成大约２０００个方框，用已训练好的ＣＮＮ比如ＡｌｅｘＮｅｔ对每一个方框内的图片提取出特征，再将特征放进ＳＶＭ进行分类，同时将特征放入回归器中得到更精确的候选方框．
７）ＦａｓｔＲ-ＣＮＮ
ＦａｓｔＲ-ＣＮＮ将Ｒ-ＣＮＮ中ＣＮＮ提取特征、ＳＶＭ分类、回归这三个过程放在一起，形成端到端整体的模型，速度和准确率都得到提升．ＦａｓｔＲ-ＣＮＮ的输入数据是整张图片和若干方框．首先用若干卷积层、池化层处理整张图片得到特征图（ｆｅａｔｕｒｅｍａｐ）；用兴趣区域池化层（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔｐｏｏｌｉｎｇｌａｙｅｒ）处理每个方框得到固定大小的特征图．然后接若干全连接层，最后同时输出是某个类别的概率、确定每个类的方框的４个值
８）ＦａｓｔｅｒＲ-ＣＮＮ．
ＦａｓｔｅｒＲ-ＣＮＮ首先用卷积层、池化层处理整张图片得到特征图，在此特征图上用ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ来生成方框，其它操作跟ＦａｓｔＲ-ＣＮＮ一样．即ＦａｓｔｅｒＲ-ＣＮＮ将生成方框的方法也换成了深度学习模型，并由原来在整张图上生成改成在更小的特征图上生成，使得模型训练速度进一步加快．
9)ＭａｓｋＲ-ＣＮＮ．ＭａｓｋＲ-ＣＮＮ在ＦａｓｔｅｒＲ-ＣＮＮ基础上增加语义分割的并行分支，在原来生成方框、分类、回归任务基础上增加分割任务，能同时实现物体检测和语义分割．ＭａｓｋＲ-ＣＮＮ的基础网络使用ＲｅｓＮｅＸｔ-１０１和ＦＰＮ（ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋ）．语义分割任务的误差由基于单像素Ｓｏｆｔｍａｘ多项式交叉熵变成了基于单像素Ｓｉｇｍｏｉｄ二值交叉熵．ＭａｓｋＲ-ＣＮＮ加入了ＲｏＩＡｌｉｇｎ层，相当于对特征图进行插值．
１０）网中网结构（ｎｅｔｗｏｒｋｉｎｎｅｔｗｏｒｋ，ＮＩＮ）．
网中网结构用微型神经网络比如多层感知器，来代替ＣＮＮ中的卷积核，形成了神经网络里嵌套着微型神经网络的结构．因为已经用微型网络进行了复杂的局部建模，所以ＣＮＮ中最后的全连接层可以由全局ｍｅａｎ-ｐｏｏｌｉｎｇ来代替．这使得模型参数大大减少，防止了过拟合，也增加了可解释性，ＮＩＮ的参数有２９００万个，是ＡｌｅｘＮｅｔ的１／１０．
１１）空间变换网络（ｓｐａｔｉａｌｔｒａｎｓｆｏｒｍｅｒｎｅｔｗｏｒｋｓ，ＳＴＮｓ）．
空间变换网络通过变换输入的图片来提升准确率，而不是通过改变网络结构．ＳＴＮｓ里主要包含空间变换模块，其又由本地化网络（ｌｏｃａｌｉｚａｔｉｏｎｎｅｔｗｏｒｋ）、网格生成器（ｇｒｉｄｇｅｎｅｒａｔｏｒ）、采样器（ｓａｍｐｌｅｒ）三部分组成．ＳＴＮｓ对于输入的图片，先用本地化网络来预测需要进行的变换，然后网格生成器和采样器对图片实施变换，变换得到的图片被放到ＣＮＮ中进行分类．ＳＴＮｓ的鲁棒性很好，具有平移、伸缩、旋转、扰动、弯曲等空间不变性．
１２）其它卷积神经网络改进．此外，还有其它卷积神经网络改进，包括ｄｅｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ、ｓｔａｃｋｅｄｃｏｎｖｏｌｕｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒｓ、ＳＲＣＮＮ、ＯｖｅｒＦｅａｔ、ＦｌｏｗＮｅｔ［４９］、Ｍｒ-ＣＮＮ［５０］、ＦＶ-ＣＮＮ［５１］、ＤｅｅｐＥｄｇｅ［５２］、ＤｅｅｐＣｏｎｔｏｕｒ［５３］、ｄｅｅｐｐａｒｓｉｎｇｎｅｔｗｏｒｋ［５４］、ＢｏｘＳｕｐ［５５］、ＴＣＮＮ［５６］、３维ＣＮＮ［５７］等．