CNN之图像识别

Hanley_Yeung

已于 2024-07-16 16:00:02 修改

阅读量899

点赞数 31

分类专栏：图像处理 opencv 神经网络文章标签： cnn 人工智能神经网络

于 2024-07-14 15:05:44 首次发布

本文链接：https://blog.csdn.net/Yophan/article/details/140412161

版权

图像处理同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

神经网络

7 篇文章 0 订阅

订阅专栏

opencv

3 篇文章 0 订阅

订阅专栏

Inception

Inception网络是CNN发展史上一个重要的里程碑。在Inception出现之前，大部分流行CNN仅仅是把卷积层堆叠得越来越多，使网络越来越深，以此希望能够得到更好的性能。但是存在以下问题:

图像中突出部分的大小差别很大。
由于信息位置的巨大差异，为卷积操作选择合适的卷积核大小就比较困难。信息分布更全
局性的图像偏好较大的卷积核，信息分布比较局部的图像偏好较小的卷积核。
非常深的网络更容易过拟合。将梯度更新传输到整个网络是很困难的。
简单地堆叠较大的卷积层非常消耗计算资源。

Inception module
解决方案:
为什么不在同一层级上运行具备多个尺寸的滤波器呢?网络本质上会变得稍微「宽一些」，而不是「更深」。作者因此设计了Inception 模块。
Inception模块( Inception module) : 它使用3个不同大小的滤波器(1x1、 3x3、 5x5)对输入执行卷积操作，此外它还会执行最大池化。所有子层的输出最后会被级联起来，并传送至下一个Inception模块。

方面增加了网络的宽度，另一方面增加了网络对尺度的适应性

实现降维的Inception模块:如前所述，深度神经网络需要耗费大量计算资源。为了降低算力成
本，作者在3x3和5x5卷积层之前添加额外的1x1卷积层，来限制输入通道的数量。尽管添加额
外的卷积操作似乎是反直觉的，但是1x1卷积比5x5卷积要廉价很多，而且输入通道数量减少也
有利于降低算力成本。
在这里插入图片描述
InceptionV1–Googlenet

Googl eNet采用了Inception模块化(9个)的结构，共22层;
为了避免梯度消失，网络额外增加了2个辅助的softmax用于向前传导梯度(只用于训练)。

Inception V2在输入的时候增加了BatchNormalization:
所有输出保证在0~1之间。

所有输出数据的均值接近0，标准差接近1的正太分布。使其落入激活函数的敏感区，避免梯度消失，加快收敛。
加快模型收敛速度，并且具有-定的泛化能力。
可以减少dropout的使用。
作者提出可以用2个连续的3x3卷积层(stride= 1)组成的小网络来代替单个的5x5卷积层，这便是Inception V2结构。
5x5卷积核参数是3x3卷积核的25/9=2.78倍。
此外，作者将 n * n的卷积核尺寸分解为 1 * n 和 n * 1 两个卷积
并联比串联计算效率要高
前面三个原则用来构建三种不同类型的 Inception 模块
InceptionV3-网络结构图
InceptionV3整合了前面Inception v2中提到的所有升级，还使用了7x7卷积
目前，InceptionV3是最常用的网络模型

Inception V3设计思想和Trick:
(1) 分解成小卷积很有效，可以降低参数量，减轻过拟合，增加网络非线性的表达能力。
(2) 卷积网络从输入到输出，应该让图片尺寸逐渐减小，输出通道数逐渐增加，即让空间结
构化，将空间信息转化为高阶抽象的特征信息。
(3) InceptionModule用多个分支提取不同抽象程度的高阶特征的思路很有效，可以丰富网络
的表达能力

InceptionV4
在这里插入图片描述

左图是基本的Inception v2/v3模块，使用两个3x3卷积代替5x5卷积，并且使用average pooling,该模
块主要处理尺寸为35x35的feature map;
中图模块使用1xn和nx1卷积代替nxn卷积，同样使用average pooling,该模块主要处理尺寸为17x17
的feature map;
右图将3x3卷积用1x3卷积和3x1卷积代替。

总的来说，Inception v4中基本的Inception module还是沿袭了Inception v2/v3的结构，只是结构看起来更加简洁统一，并且使用更多的Inception modules实验效果也更好。
在这里插入图片描述
Inception模型优势:

采用了1x1卷积核，性价比高，用很少的计算量既可以增加一层的特征变换和非线性变换。
提出Batch Normalization,通过一定的手段，把每层神经元的输入值分布拉到均值0方差1的正态分布，使其落入激活函数的敏感区，避免梯度消失，加快收敛。
引入Inception module, 4个分支结合的结构。
卷积神经网络迁移学习
现在在工程中最为常用的还是vgg、 resnet、 inception这几种结构，设计者通常会先直接套用原版的模型对数据进行训练一次，然后选择效果较为好的模型进行微调与模型缩减。
工程上使用的模型必须在精度高的同时速度要快。
常用的模型缩减的方法是减少卷积的个数与减少resnet的模块数。

Mobilenet

MobileNet模型是Google针对手机等嵌入式设备提出的一种轻量级的深层神经网络，其使
用的核心思想便是深度可分离卷积depthwise separable convolution。

Mobilenet-深度可分离卷积depthwise separable convolution

通俗地理解就是3x3的卷积核厚度只有一层，然后在输入张量上一层一层地滑动，每一次卷积完生成一个输出通道，当卷积完成后，再利用1x1 的卷积调整厚度。
假设有一个3x316大小的卷积层，其输入通道为16、输出通道为32。具体为，32个3x3大小的卷积核会遍历16个通道中的每个数据，最后可得到所需的32个输出通道，所需参数为16x323x3=4608个。
应用深度可分离卷积，用16个3x31大小的卷积核分别遍历16通道的数据，得到了16个特征图谱,接着用32个1x11大小的卷积核遍历这16个特征图谱，所需参数为16x3x3+16x32x1x1=656个。
可以看出来depthwise separable convolution可以减少模型的参数。

MobileNet
MobileNet模型是Google针对手机等嵌入式设备提出的一种轻量级的深层神经网络，其使用的核心思想便是深度可分离卷积depthwise separable convolution。

卷积神经网络设计技巧
问题背景: .

想要熟练掌握训练神经网络的能力并不是那么容易。与先前的机器学习思维一样,细节决定成败。但是，训练神经网络有更多的细节需要处理。你的数据和硬件有什么限制?你应该从何种网络开始?你应该建立多少卷积层?你的激励函数怎样去设
置?
学习速率是调整神经网络训练最重要的超参数，也是最难优化的参数之一。太小, 你可能永远不会得到一个解决方案;太大，你可能刚好错过最优解。如果用自适应.的学习速率的方法，这就意味着你要花很多钱在硬件资源上，以此来满足对计算的需求、
设计选择和超参数的设置极大地影响了CNN的训练和性能，但对于深度学习领域新进入者来说，设计架构直觉的培养可能就需要资源的稀缺性和分散性。
ResNet18 至 ResNet50 性价比较高，ResNet50 至ResNet152性价比较低。
圈的大小是不同数据集的波动范围，常用InceptionV3 和 ResNet50

架构遵循应用

你也许会被GoogleBrain或者DeepMind这些有想象力的实验室所发明的那些耀眼的新模型所吸引，但是其中许多要么是不可能实现的，要么是不实用的对于你的需求。或许你应该使用对你的特定应用最有意义的模型，这种模型或许非常简单，但是仍然很强大，例如VGG。
卷积神经网络设计技巧

路径的激增
每年ImageNet Challenge的赢家都比上一年的冠军使用更加深层的网络。从AlexNet 到Inception到Resnets,有"网络的路径数量成倍增长”的趋势。
追求简约
更大的并不一-定是更好的。
增加对称性
无论是在建筑上，还是在生物上，对称性被认为是质量和工艺的标志。
金字塔形状
你总是在表征能力和减少冗余或者无用信息之间权衡。CNNs通常会降低激活函数的采样，并会增加从输入层到最终层之间的连接通道。

Resnet
ResNet50有两个基本的块，分别名为Conv Block和Identity Block,其中Conv Block输入和输出的维度
是不一样的，所以不能连续串联，它的作用是改变网络的维度; Identity Block输入维度和输出维度相
同，可以串联，用于加深网络的。
在这里插入图片描述

过渡训练
另-一个权衡是训练准确度和泛化能力。用正则化的方法类似drop-out或drop-path进行提升泛化能力，
这是神经网络的重要优势。用比实际用例更难的问题训练网络，以提高泛化性能。
覆盖问题的空间
为了扩大训练数据和提升泛化能力，要使用噪声和人工增加训练集的大小。例如随机旋转、裁剪和一些
图像增强操作。
递增的功能结构
当架构变得成功时，它们会简化每一层的“工作”。在非常深的神经网络中，每个层只会递增地修改输入。
在ResNets中，每一层的输出可能类似于输入。所以，在实践中，请在ResNet中使用短的跳过长度。
标准化层的输入
标准化是可以使计算层的工作变得更加容易的一条捷径，并且在实际中可以提升训练的准确性。标准化
把所有层的输入样本放在了-一个平等的基础上(类似于单位转换)，这允许反向传播可以更有效地训练。
使用微调过的预训练网络(fine tuning)
机器学习公司Diffbot 的CEO Mike Tung说，“如果你的视觉数据和ImageNet相似，那么用预训练网
络会帮助你学习得更快I。低水平的CNN通常可以被重复使用，因为它们大多能够检测到像线条和边
缘这些常见的模式。比如，用自己设计的层替换分类层，并且用你特定的数据去训练最后的几个层。
使用循环的学习率.
学习率的实验会消耗大量的时间，并且会让你遇到错误。自适应学习率在计算上可能是非常昂贵的，
但是循环学习率不会。使用循环学习率时，你可以设置一-组最大最小边界，并且在这个范围改变它。