2D目标检测综述之神经网络篇

一、神经网络架构

1.卷积层
       该层是卷积网络的基本单元。它由一系列排列着神经元的特征图组成。该层的参数是一系列的卷积核(滤波器)。这些卷积核与特征图进行卷积从而产生单独的二维激活图,它们在z轴上堆叠产生最终的输出。同一张特征图的神经元共享权重,通过降低参数数量可以减少网络复杂度。两层神经元之间稀疏连接的空间扩展是称为感受野的超参。卷积层中控制输出大小的超参称为深度(滤波器的数量),步幅(控制滤波器的移动)以及零填充(控制输出空间大小)。卷积网络使用反向传播进行训练,反向传播也涉及卷积运算,但是用的是空间翻转滤波器。abe6b43f565b424db1609addf8840fee.png 

2.非线性映射层
       非线性函数的目的是把输入信号转换为输出信号,用于下一个层的输入。常见的非线性映射函数(激活函数)如下:
Sigmoid:输出位于0~1之间。缺点是啊a.容易造成梯度饱和以及梯度消失b.输出不是零中心,容易在正值和负值之间振荡。具体形式如下:

52bedb4bd42b48dd9bf186855534899c.png

 Tanh:输出位于-1~1之间的数。仍然存在梯度饱和的问题,但由于输出是以0为中心,输出不在正负两极间震荡。一般比Sigmoid常用。

ee8eb61e224c4ceda1257a1d29d8e096.png

 ReLU:通过使用ReLU函数,可以加速梯度下降的收敛过程。

0fc6226a50214f749d813f326578b080.png

 Leaky ReLU:

77d697b6cc1c4398a8ad924d76c5cdd2.png

 3.池化层

       基本的卷积网络架构通过交替卷积层与池化层,在不丢失信息的前提下,减少激活图的空间维度以后网络的参数从而降低计算复杂度。常见的池化操作包括最大池化、平均池化、随机池化、频谱池化以及空间金字塔池化等。它可以解决过拟合问题。最大池化过程如下图所示:

cf89e46de6894f948e6e151ef076c883.png

 4.全连接层

       该层的每个神经元和前一层的所有神经元相连,我们基于前一层的激活输出,在全连接层计算预测结果,用于分类和回归。由于全连接层的输出是一维向量,因此无法在其后添加卷积层。

5.损失函数层

       最后一个全连接层用于计算损失,作为预测值和真实值不匹配的惩罚。如果从K个互斥类中预测一个单独的类,通常使用Softmax函数。交叉熵损失函数预测样本属于K个类别的K个概率值。欧式损失通常用于回归问题中。

8355eac90195423a93219fb6f1466d22.png

 二、主干网络模型
1.LeNet

这种传统的神经网络架构被成功地应用到了MNIST手写数字识别中。LeNet要求输入是一张32×32×1的灰度图,经过卷积层和下采样层。之后又经过一系列伴随着池化层的卷积层。最后是三个全连接层。它利用的是步幅为1的5×5的卷积核。

ca92704739964e8185cd1bce78cf0fe3.png

 2.AlexNet

它首先利用了一系列的数据优化方法,包括图像平移,局部提取以及水平翻转。该模型通过丢弃层解决了训练数据过程中的过拟合问题。它通过随机梯度下降法,以给定值进行权重衰减和梯度优化。它包括5个卷积层以及池化层,以ReLU函数为激活函数,3个全连接层和丢弃层。

55510cac8f3a463eb0740c80db7f78bf.png

 3.ZFNet

该模型在输入上利用7×7的卷积核以减小步幅。后来由此发展除了反卷积网络技术。5de2b76309ee4225927f877778edece3.jpg

 4.GoogleNet

该模型采用一种名为“inception module”的块,可以有效的拓宽模型的宽度和深度。GoogleNet最典型的结构用了22个inception module,最后参数还是要比AlexNet少。

1a3726e1abb545d9adca6ce42f7affce.png

 5.VGGNet

VGG-16有13个卷积层和3个全连接层,而VGG-19有3个额外的卷积层。它的感受野尺寸为3×3,每个隐藏层都以ReLU作为激活函数。前向传播和深度处理,是该模型的意义。

db76582570b94248a218860c0b78ded9.jpg

6.ResNet

 残差网络通过一种类似于“跳线”的技巧,在原本距离很远的两个网络层之间建立一个短路连接,打破了神经网络逐层传递的结构,从而避免了梯度爆炸和梯度消失的问题。借助于残差网络,人们可以很轻松的搭建1000层以上的神经网络。

e5d951f029ee4fdd883c5b99286a8ed5.png

7.ResNeXt

  这是一种可管理的架构,它基于VGG/ResNet的结构,形成了拆分、转换以及合并的过程。这些残差块使用相似的拓扑和规则。

75807bc6f04d4b78b52a17f28bce05df.png9.MobileNet

 在该模型中,传统的卷积被深度独立卷积替代。它在每个颜色通道上施加单独的卷积操作,而不是把三个通道连接起来再进行平滑操作。

dc752aae6c0449ef884876d2c972ea6a.png

 10.DenseNet

该架构每一层都以前馈方式耦合。L层的模型有L(L+1)/2个直接连接。它将输出特征图与输入特征图连接在一起,每一层都从之前的所有层获取知识。这项工作在减少梯度消失问题、最小化参数数量和特征重用方面很有用。在CIFAR-100、ImageNet等数据集上都实现了最先进的性能,唯一的缺点是由于张量串联,需要大量额外内存。

2a6033ecc0ee433690fd75cb47e999a8.png

 11.Xception

该模型是“inception module”的扩展,它运用了这样一条假设:空间关联性和跨通道关联性可以适当的解耦。

e4d5a72154374a9eb26d8662c062bed9.png

 12.NAS\PNAS\ENAS
        Neural Architecture Search是一种最优模型搜索算法。为了优化模型的配置,标准的NAS使用强化学习搜索方法。

fab5e1b8039140919afa9411cc1e6f44.png

 在渐进式搜索框架中(PNAS),我们用序列化基于模型的优化(SMBO)代替强化学习。该图主要说明了我们可以利用渐进式方法进行架构查询。学习到的预测函数会和逐渐复杂的图空间合并。它可以快速训练基础模型,从而预测要求的替代结构的质量。

68473d7ac4a34cd5a687194bf5e5e32d.png

 高效神经网络架构搜索(ENAS)利用宏观和微观搜索生成两种类型的神经网络,分别叫做控制器和子模型。其中控制器是一个与训练好的RNN,子模型是图像分类要求的CNN。

7553771a618d493d8b80d7610c816877.png

 13.EfficientNet
       这是一种缩放技术,其核心是利用有效复合系数以逐步组织的方式放大CNN。它使用一组固定的缩放系数,一致的缩放每个维度,比如深度、宽度和分辨率。

4de1268abe2b4ebb9bcd47ded4133001.png

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值