深度学习经典网络模型总结

转载请注明出处:https://blog.csdn.net/q_z_r_s/article/details/88315522

机器感知
一个专注于SLAM、三维重建、机器视觉等相关技术文章分享的公众号
公众号:机器感知

深度学习经典网络模型总结

1. LeNet

xavier:神经网络初始化方法
LeNet第一层是32*32大小的图像,而caffe中mnist数据库为28*28,这样做的原因是希望潜在的明显特征,
如笔画断续、角点能够出现在高层特征监测子感受野的中心。

2. AlexNet

摘要:
	网络模型包含 60 million 的参数,65000 neurons,五个卷积层,3个全连接层
	最大池化,LRN(用在最大池化之前卷积的ReLU结果之后)
	Dropout:用在前两个全连接层上,降低过拟合,提高准确率。
1.  简述需要更深的网络的原因,及AlexNet的基本贡献
2.  采用ImageNet数据集,因为AlexNet需要使用固定大小的图像作为输入,所以需要对
	原始图像进行剪裁,剪裁成大小为256*256的尺寸
3.  网络架构:
	5个卷积层:在两块GPU上进行
	3个全连接层:softmax交叉熵优化
	ReLU:训练速度更快
	LRN:有助于模型的泛化
	Overlapping Pooling:相比于非重叠池化,准确率更高,不容易过拟合
4.	降低过拟合
	4.1	Data Augmentation
		由上可知,剪裁出来的图像大小为256*256,而网络输入大小224*224
		这是为了对原始图像进行随机提取patches操作而故意为之的!
		第一种方法:平移和水平镜像
		第二种方法:使用PCA对图像像素强度进行调整
	4.2	Dropout
		通过随机操作可以减少神经元之间的co-adaptations,因此单个神经元不能仅依赖其他
		特定的一些神经元,而是被迫去学习更具有鲁棒性的特征来应对随机的神经元子集
5.	Details of learning
	使用SGD方法进行优化、使用零均值高斯分布初始化权重、根据训练情况手动调节学习率
7. Results
8. Discussion
	网络深度很重要

3. GoogLeNet

摘要:
	提出了新的卷积神经网络架构-Inception-,此架构的主要特点是提高网络内计算资源的利用率。
	通过精心设计,我们增加了网络的深度和宽度,同时保持计算预算不变。GoogLeNet为22层深度网络。
1.	介绍设计新的网络架构的目的及意义。GoogLeNet参数比AlexNet少了12倍,GoogLeNet的准确率不是
	因为深度够深,而是源于对深度卷积架构的创新。
2.	讲述GoogLeNet是如何构成的
3.	传统的提高精度的方法是使用更宽、更深的卷积层,而弊端是容易过拟合、训练难等问题!
	因此需要设计新的卷积架构:Inception是如何设计的:用小的稠密组件近似大的稀疏卷积结构!
4.	首先是设计了初始的Inception版本,由于层越高越注重抽象的特征,而空间注意将减少,所以需要
	用更大的卷积核来补偿,但如果照这个思路操作下去,那么不用几层,特征输出就无限大了,所以
	提出了新版本的Inception,即在大卷积核前先使用1*1的卷积核进行降维,这样就可以了!
5.	GoogLeNet使用224*224的零均值RGB图像作为输入,最后一层全连接层主要是用来使网络输出适配到不同的
	标签集上,并不是希望提高分类精度!
	Inception的引入允许使用更深的网络结构,而这带来的后果就是梯度传播能力够不够的问题,容易发生
	梯度消失,所以再网络中间层设置了新的loss层,标准与主网络输出的loss层标准相同,但在使用该网络
	进行预测推理的时候将中间层引入的loss层剔除掉不用!
6.	使用SGD方法训练,实验证明光度扭曲有助于应对过拟合问题
7.	训练时使用大尺寸的图像剪裁成224*224大小的图像,还包括将图像进行镜像操作等,这样一张图生成144张
	图片用于训练。
8.	比赛结果强力的说明了,用稠密组件近似大的稀疏结构是可以行的方法。该结构的主要优点就是计算量小!
	增加小的计算量就可以获得高质量的精度提高!

4. VGGNet

摘要:
主要贡献是验证了更深的卷积网络结构是可行的
1.	本文主要关注的问题是网络结构的深度,实验表明此网络结构可以给SVM直接进行分类使用
2.	结构:使用3*3小卷积核,偶尔使用1*1的卷积核,使用最大池化,softmax,交叉熵,ReLU,验证了LRN效果不佳
	网络层数从11-19层,此网络的想法与GoogLeNet的想法相似,即用小的卷积核代替大的卷积核,但又与GoogLeNet
	不完全相同,没有它那么复杂的结构!文中说明了GoogLeNet为了减少计算量在第一个卷积层舍弃了太多的特征图
	因此导致空间分辨率不高!
3.	训练方法与AlexNet类似,使用交叉熵,使用最小批量梯度下降法
	为了训练更深层的网络,本文采用了先训练浅层网络的的方法,然后用浅层网络的权值预初始化更深层的网络的
	前四个卷积层和最后三个全连接层的权值
	训练方法和测试方法有两种:固定尺度和非固定尺度
	网络模型的实现是基于Caffe的,但是做了深度改造以适应多GPU训练
4.	A模型和A-LRN模型的对比表明LRN的作用并不大,所以后续模型全部不采用
	深度越深精度越高、1*1的非线性卷积核作用不怎么样
	更深的小卷积核形成的网络比等效的浅层网络的大卷积核效果更好
	结果对比表明:多尺度训练 > 固定尺度训练、多尺度测试 > 固定尺度测试
	多个网络结果的融合可以提高整体预测精度
5.	证明了深度在视觉表示领域的重要性

5. Siamese

6. SqueezeNet

设计初衷:减少参数量
本文设计CNN架构的三个策略:
1.用1*1替换3*3
2.减少输入到3*3核的通道数,即降低参数
3.为了在卷积层有足够的激活映射,降采样放在网络后边执行:这样做的原因是保留足够多的映射激活,这样有助于提高分类精度

7. FCN

8. R-CNN

摘要:
	VOC数据集目标检测领域的典范,本文提出了使用CNN进行目标检测的新模型,本文提出的模型有两个关键点:
	1.可以将CNN应用于目标定位和分段上
	2.在带标注训练数据匮乏时,可以通过有监督预训练辅助
1.	过去十来年的视觉识别任务并没有大的发展,2010-2012间发展很慢,小的进展也都是通过使用已经成功的方法建立组合系统
	或进行小的改进获得的;LeCun通过BP展现了SGD可以训练CNN;CNN在90年代被广泛使用,但是SVM出来之后就消沉了;
	2012 Alex再次点燃了CNN,他的成功源于在一个很大的有标签的数据集上训练了一个更大的CNN,同时使用了ReLU等技巧;
	本文关注两个问题:
	1.使用深度网络定位目标
		与图像分类不同,检测需要定位图像中的物体。一种方法是把它看做回归问题,然而实践表明这种策略并不怎么好;
		另一种方法就是建立滑窗检测器,本文考虑采用此方法。然而本文的网络有5个卷积层,感受野和步长都很大,所以精确定位是一个难题
		最后,本文选择使用Selective Search方法:生成可能有物体的区域;对输入的图像生成将近2000的候选区域,并放缩到固定的尺寸
		然后送入CNN网络产生固定维度的特征向量,然后用一组线性SVM(线性分类器只能二分类,所以这里是很多SVM)进行分类打分;
	2.使用小的带标注的检测数据量训练一个大容量的模型
		检测任务的另一个难题是带标注的数据太少了,现有的数据是不足以训练大型CNN的。方便的解决办法就是使用非监督预训练,然后微调
		本文的第二个主要贡献是:
		展示了在辅助数据集上的监督预训练,然后在有区域标注的数据上进行微调;简单地边框逻辑回归显著的降低了错定位问题
2.	R-CNN包含三个模块:
	1.生成类别独立的候选区域:Selective Search
		为了简单,直接将候选框中的图像放缩到227*227的大小。一个细节:缩放操作之前,先在候选图像区域之外膨胀p个像素
	2.从候选区域提取特征的大型CNN网络
		使用基于Caffe实现的AlexNet提取4096维的特征向量;输入去均值的RGB图像,然后经过五个卷积层和两个全连接层生成
	3.用于分类的一组SVMs,而不只是一个SVM这么简单
		在测试(推理)的时候:将所有的候选区域送入CNN,然后生成特征向量,最后送入SVM评分,
		根据区域评分,如果一个区域和一个比自己评分更高的区域重叠了一定的比例,则剔除该评分小的区域
	训练:
	先在没有边界框的ILSVRC2012数据上进行预训练,使用Caffe CNN库。作者认为他的CNN可以媲美AlexNet,虽然误差率比它大,那是因为我们训练简化了而已~
	微调:
	然后继续用SGD训练网络,只不过这次替换掉了最后一个全连接层,而是换成了自己的N+1的全连接层,+1是给背景一个类别,CNN的其他部分不变
	在微调时,本文把与真值框重叠IoU>=0.5的认为是正确的,微调时使用了1/10的初始训练的学习率,为了防止破坏预初始化的权值
	考虑到有的物体在图像中显示的并不全的问题,通过定义IoU阈值来制定低于阈值的就是错的,本文在验证集上设置的阈值为0.3,作者发现这个值很重要!!
3.	作者先分析了没有通过微调的模型,分析发现全连接层FC7没有FC6重要,移除FC6和FC7直接使用pool5反而效果还挺好了!!
	说明没有微调前的全连接层没有那么重要,重要的还是在卷积层上
	作者分析微调后的结果发现,微调对FC6和FC7的提升比pool5大,这说明pool5从ImageNet学到的是具有泛化的特征,大部分的提升都来源于全连接层对
	具体领域非线性分类器的学习!
	网络模型架构的选择也影响最后的结果,作者通过将VGG16应用到R-CNN中发现,效果显著改善了,不过速度变慢了
	最后再加上Bounding-box regression后,想过更好了!这个逻辑回归的输入特征不是全连接层,而是pool5的输出的特征
	然后逻辑回归真值框!
4.	首先提出目标检测这个问题,然后分成目标分类+预测边框
	目标分类:使用CNN预训练的网络,然后在VOC上微调,识别VOC的类别,主要是用于产生固定维度的特征向量给SVM
	预测边框:使用selective search方法提取将近2000的候选区域,然后缩放到CNN输入的固定大小,产生特征向量
	为了让边框更精确,对最后的候选边框进行逻辑回归。

9. Fast-RCNN

10. Faster-RCNN

11. SSD

12. YOLO

  • 0
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: ResNet(残差网络)是一种深度卷积神经网络,最初由微软亚洲研究院的Kaiming He等人提出。ResNet的主要贡献是提出了残差学习的概念,解决了深度神经网络中的梯度消失和梯度爆炸问题,允许构建更深的网络。 ResNet通过在网络中引入残差块(Residual Block)来实现残差学习。残差块由两个卷积层和跨越连接组成,其中跨越连接将输入直接添加到输出中。这个跨越连接使得可以学习到残差,即网络可以学习到输入和输出之间的差异。这种方式可以使得网络学习到更加复杂的特征,并且可以让网络更加容易优化。 ResNet还提出了一种深度增加的策略,即采用“跳跃连接”(skip connection)的方式来连接卷积层,使得网络可以更加深。这种方式可以使得网络的深度达到上百层,而且相比于其他深度网络,ResNet的训练速度更快,精度更高。 总之,ResNet在深度学习领域中具有重要的意义,引入了残差学习的概念,解决了深度神经网络中的梯度消失和梯度爆炸问题,允许构建更深的网络。 ### 回答2: ResNet是一种深度学习网络模型,是残差网络(Residual Network)的缩写。它于2015年由Kaiming He等人提出,是一种用于解决深度神经网络训练中梯度消失和模型退化问题的重要创新。 ResNet的核心思想是引入了残差模块,通过利用跨层的直接连接来构建更深的网络模型。在传统的深度网络中,随着网络层数的增加,网络的训练误差通常会增加,这是由于梯度在反向传播过程中逐层传递而导致的。ResNet通过跳跃连接(shortcut connections)来解决了这个问题,在每个残差模块中引入了一个恒等映射,使得梯度能够直接跨过几个层进行传递,有效地缓解了梯度消失的问题。 具体来说,ResNet通过在卷积层之后添加“残差块”来构建深度网络。每个残差块包含了两个或更多的卷积层,其中包括了主要的卷积层和恒等映射。通过逐层地堆叠残差块,可以构建出深度更大的网络,从而提高网络的表达能力。 此外,ResNet还引入了全局平均池化层和批归一化层来进一步提升网络性能。全局平均池化层用于取代传统网络中的全连接层,能够减少参数量并有效避免过拟合;批归一化层则用于规范化每个深度层的输入,加速网络的训练过程并提高模型的泛化能力。 总结而言,ResNet是一种通过引入残差模块来构建深度网络的方法。它通过跳跃连接和恒等映射解决了梯度消失和模型退化的问题,可以用于解决大规模图像识别、目标检测和语义分割等复杂任务。在深度学习领域中,ResNet已经成为了许多重要应用领域的基础模型。 ### 回答3: ResNet(残差网络)是一种深度学习网络模型,用于解决神经网络在训练过程中的梯度消失和梯度爆炸问题。它的核心思想是通过引入跨层连接和残差学习,使得网络可以更深,更容易训练。 在传统的神经网络中,每一层的输入都与前一层的输出直接相连。当网络变得非常深时,这些连接会导致梯度在反向传播过程中逐渐衰减,使得训练过程变得困难。为了解决这个问题,ResNet引入了跨层连接,即将当前层的输出直接加到后续层的输入上,这样可以保留前面层的信息,并且使得梯度能够更好地传播。 具体来说,ResNet使用了残差学习的概念。残差是指当前层输出与后续层输入之间的差,而残差学习的目标是将这个差尽可能地减小。为了实现这个目标,ResNet在网络的每个主要构建块中都使用了残差块。残差块由两个连续的3x3卷积层组成,每个卷积层之间添加批量归一化和激活函数,最后将输入与输出相加。通过这种方式,残差块可以学习出残差信息,并将其传递给后续层,有效地解决了梯度消失和梯度爆炸问题。 此外,为了进一步加深网络,ResNet还引入了残差块的堆叠。堆叠多个残差块可以生成更深的网络,提高网络的表达能力。在实际应用中,ResNet经常被用于图像分类任务,通过不断堆叠残差块和下采样操作,可以构建非常深的网络,达到很好的分类效果。 总的来说,ResNet是一种通过引入跨层连接和残差学习来解决梯度消失和梯度爆炸问题的深度学习网络模型。它的设计思想简单而有效,在许多深度学习任务中取得了很好的表现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值