An analysisof spatial transformers and stochastic optimisation methods-总结

最新推荐文章于 2024-07-14 14:26:38 发布

Ali_Hu Ali_Hu

最新推荐文章于 2024-07-14 14:26:38 发布

阅读量2.1k

点赞数

分类专栏： My Notebook 文章标签：深度学习 cnn 人工智能

本文链接：https://blog.csdn.net/qq_41140449/article/details/123043477

版权

My Notebook 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

（TSRS:交通标志识别系统)-->TSD(交通标志检测)+TSR(交通标志识别) （前者：图片中目标的定位；后者：细粒度分类）
回顾了交通标志识别系统的相关工作
描述了为分析空间Transformers和随机优化算法对拟议CNN的影响而进行的实验
识别结果
结论并提出进一步工作

1.细粒度分类是对大类下的子类进行识别。细粒度图像分析任务相对通用图像任务的区别和难点在于其图像所属类别的粒度更为精细。

2. 细粒度分类常用方法：

①使用通常DNN进行细粒度分类，该方法难以捕获有区别性的局部细节，目前已经不太常用了。

②基于定位——识别的方法，先找到有区分度的局部，然后进行特征提取和分类，该方法又可分为强监督和弱监督。

③基于网络集成的方法：使用多个DCNN对细粒度识别中的相似特征进行判别。

④卷积特征的高阶编码方法：将CNN特征进行高阶转换然后进行分类，主要有fisher vector，双线性模型、核融合等。

3.在3中提出了一个交通标志识别系统，通过以卷积和空间变换模块为主要模块的CNN对交通标志图像进行细粒度分类。为了找到一个准确、高效的CNN，研究和讨论了使用几种STN和不同的随机梯度下降优化方法的效果。

本文要关注GTSRB数据集上的空间Transformer效率和成本函数优化实验。

图像的上采样(upsampling)与下采样(subsampled)：

1.上采样——缩小图像——降采样（目的）：

①使得图像符合显示区域的大小；

②生成对应图像的缩略图。

2.下采样——放大图像——图像插值（目的）：

方法原图像，从而可以显示在更高分辨率的显示设备上（对图像的缩放操作并不是带来更多关于该图像的信息，因此图像的质量将不可避免地受到影响。）

原理：

1.下采样：对于一幅图像尺寸为M*N，对其进行S倍下采样，即得到(M/S)*(N/S)尺寸的分辨率图像，当然S应该是M和N的公约数才行，如果考虑的是矩阵形式的图像，就是把原始图像S*S窗口内的图像变成一个像素，这个像素点的值就是窗口内所有像素的均值。

2.上采样：图像放大几乎都是采用内插值方法，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

3.无论下采样还是上采样，采样方式有很多。如最近邻插值、双线性插值、中值插值、均值插值等方法。

数据预处理——GCN(全局对比度归一化)和LCN(局部对比度归一化)

GCN旨在通过从每个图像中减去其平均值，然后重新缩放使得其像素上的标准差等于某个常数s来防治图像具有变化的对比度。但是，对于contrast=0的图像（所有像素强度相等），就会有除以0的风险。所以，引入参数 $\lambda$ 和 $\epsilon$ 来平衡和约束归一化。

GCN常常不能突出我们想要突出的图像特征，比如边缘和角。

LCN确保对比度在每个小窗口上被归一化，而不是作为图像整体被归一化。

LCN有各种策略来实现：

1.减去均值再除以标准差。

2.以要修改像素为中心的高斯权重的加权平均和加权标准差。

3.彩色图像中，可以单独处理不同channel，或者mix channels来做归一化。

局部对比度归一化层：通过减法局部归一化和分裂局部归一化，对输入地图的对比度进行归一化。这两种操作都使用高斯核，并根据每个特征在输入地图的局部空间区域进行计算。

深度前馈神经网络(deep feedforword network)，也叫做前馈神经网络或多层感知机(MLP)，是典型的深度学习模型。前馈网络的目标是近似某个函数f*。

神经元与全连接层

神经元是构成一个神经网络的最小单元。实现了对所有输入求加权和并输出的功能。W通常称为权重，也就是神经元的参数。

目的：为了最终的输出y能够更好地匹配x的标签，神经网络通常会涉及一些优化过程，那对权重参数w的取值进行不断的调整。

反向传播就是常用的一种方法。

为什么引入非线性激励函数？

如果不用激励函数，在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你有多少层神经网络，输出的都是输入的线性组合。

激活函数是用来加入非线性因素的，因为线性模型的表达能力不够。

为什么引入Relu呢？

第一，采用sigmoid函数，算激活函数是（指数运算），计算量大，而使用Relu，整个计算节省了很多。

第二，对于深层网络，sigmoid函数反向传播时，很容易出现梯度消失的情况，（sigmoid接近饱和区的时候，变化太缓慢，导数趋于0），反而无法完成深层网络的训练。

第三，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数之间互相依存的关系，缓解了过拟合的发生。

Max-pooling Layers

直接减少参数数量和计算成本，逐渐减少特征地图的空间大小。此外，这些层通过选择更好的不变特征来控制过拟合，并改进了泛化。

Spatial Transformer Units

geometric transformation 几何变换

目的：（对输入地图执行几何变换，从而使CNN能够以高效的计算方式对输入数据保持空间不变。）由于这种转换，不需要额外的培训监督、手工制作的数据扩充（如旋转、平移、缩放、倾斜、裁剪）或数据规范化技术。<定位网络、网格生成器、采样器>

Fully connected layer neurons

完全连接层神经元与前一层中的所有激活完全连接，因此它们将前一层的输出组合成一维特征向量。网络的最后一个完全连接的层执行分类任务，因为它每个类有一个输出神经元，后跟一个对数softmax激活函数。

加速训练

技术——NAG（内斯特罗夫的加速梯度法）和HB（波利亚克的重球法）——可以归类为随机动量方法。

自适应优化方法构成了另一系列梯度下降算法。与非自适应方法相比，它们通过选择从迭代 $w_{1}$ ，……， $w_{k}$ 的历史构造的局部距离度量来执行局部优化。这类算法包括AdaGrad（自适应梯度算法）、RMSprop（均方根传播）、Adam（自适应矩估计）。

在本文中比较了四种适用于第3.2节中提出的CNN的小批量梯度下降优化算法的有效性：SGD（无动量随机梯度下降）与Nesterov的加速梯度、RMSprop、Adam。

超参数调整

目的：为了找到足够的初始学习速率值，从而达到模型收敛，对多个网络进行了多个阶段的训练。

RMSprop和Adam的情况下，高学习率（如0.01）无法很好地工作，因为准确度得分较低。

主要原因：SGD的学习率是固定的，并且可以选择遵循an annealing schedule，RMSprop和Adam根据迭代历史计算每个模型参数的自适应学习率。为此类方法设置较低的学习率，以防止损失值卡在优化环境中的不利位置。

目标

在添加最佳随机梯度下降优化程序的同时，确定CNN中添加STN的最佳位置。

每个实验的最小批量：50，分两个阶段：

①用GTSRB训练集训练neural network。

②用GTSRB验证集对其进行15个阶段的测试。

To sum up

将the inclusion of spatial transformer units 包含在主CNN中会带来更高的分类性能，尤其是在至少第一层之间添加the inclusion of spatial transformer units时，这种性能的提升是由于空间变换尺度标准化并裁剪出适当的交通标志区域，从而简化了后续的分类任务。

本文提出了一种交通标志的自动细粒度识别方法。分类过程通过使用单个CNN来执行，CNN交替使用卷积和空间变换模块。为了找到最佳的CNN结构，进行了几次实证实验，以研究CNN内多个空间变压器网络配置的影响，以及四种随机梯度下降优化算法的有效性。CNN模型优于之前所有最先进的方法。

未来的工作应该研究如何建立一个单一的深层精神网络，在每个交通标志象形文字相似的国家提供一流的交通标志识别率准确率。

Ali_Hu Ali_Hu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
An analysisof spatial transformers and stochastic optimisation methods-总结

（TSRS:交通标志识别系统)-->TSD(交通标志检测)+TSR(交通标志识别) （前者：图片中目标的定位；后者：细粒度分类）回顾了交通标志识别系统的相关工作描述了为分析空间Transformers和随机优化算法对拟议CNN的影响而进行的实验识别结果结论并提出进一步工作 1.细粒度分类是对大类下的子类进行识别。细粒度图像分析任务相对通用图像任务的区别和难点在于其图像所属类别的粒度更为精细。 2. 细粒度分类...
复制链接

扫一扫