CNN应用之基于Overfeat的物体检测-2014 ICLR-未完待续

最新推荐文章于 2024-03-24 21:24:47 发布

beihangzxm123

最新推荐文章于 2024-03-24 21:24:47 发布

阅读量1.9k

点赞数

分类专栏： CNN

CNN 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

转载自：深度学习（二十）CNN应用之基于Overfeat的物体检测-2014 ICLR-未完待续 - hjimce的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/hjimce/article/details/50187881

基于Overfeat的物体检测

原文地址：

作者：hjimce

一、相关理论

本篇博文主要讲解经典物体检测算法：《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks》，至今为止这篇paper，已然被引用了几百次，可见算法牛逼之处非同一般啊。说实话，当年刚入门深度学习的时候，看这篇文章感觉很难，Overfeat、DCNN、FCN，这三个算法，每个算法都看了将近一周的时间，才打通了任督二脉。开始前，先解释一下文献的OverFeat是什么意思，只有知道了这个单词，我们才能知道这篇文献想要干嘛，OverFeat说的简单一点就是特征提取算子，就相当于SIFT，HOG等这些算子一样。Along with this paper, we release a feature extractor named “OverFeat”，这是文献对overfeat定义的原话。这篇文献最牛逼的地方，在于充分利用了卷积神经网络的特征提取功能，它把分类过程中，提取到的特征，同时又用于检测等各种任务，牛逼哄哄啊。只需要改变网络的最后几层，就可以实现不同的任务，而不需要从头开始训练整个网络的参数。

未完待续，敬请期待……

训练部分

对于每张原图片为256*256，然后进行随机裁剪为221*221的大小作为输入训练数据，训练的min-batchs选择128，权重初始化选择，高斯分布的随机初始化：

然后采用随机梯度下降法，进行优化更新，动量项参数大小选择0.6，L2权重衰减系数大小选择10-5次方。学习率一开始选择0.05，然后根据迭代次数的增加，每隔几十次的迭代后，就把学习率的大小减小一半。

然后就是DropOut，这个只有在最后的两个全连接层，才采用dropout，dropout比率选择0.5，也就是网络的第6、7层。下面就是整个网络的相关参数。

由以上的网络结构可以知道，在训练过程中，输出特征图的大小为1*1,总共有1000个特征图（1000个分类）。在网络的第1-5层，基本上和AlexNet是一样的，也是使用了ReLU激活，最大池化。不同之处在于：

1、作者没有使用局部响应归一化层，

2、然后也没有采用重叠池化的方法

3、在第一层卷积层，stride作者是选择了2，这个与AlexNet不同，AlexNet选择的跨步是4。在网络中，如果stride选择比较打得话，虽然可以减少网络层数，提高速度，但是却会降低精度。

3.3多尺度图片分类

这一步需要声明一下，网络结构在训练完后，参数的个数、结构是固定的，而这一步的算法并没有改变网络的结构，只是用于预测一张图片时，通过裁剪的方法裁剪成几张图片，然后对这几张图片分别进行预测，最后对这几张图片结果进行平均统计。

我们知道在Alex的文献中，他们预测的方法是，输入一张图片256*256，然后进行multi-view裁剪，也就是从图片的四个角进行裁剪，还有就是一图片的中心进行裁剪，这样可以裁剪到5张224*224的图片。然后把原图片水平翻转一下，再用同样的方式进行裁剪，又可以裁剪到5张图片。把这10张图片作为输入，分别进行预测分类，在后在softmax的最后一层，求取个各类的总概率，求取平均值。

于是，对于预测，作者就提出了多尺度的方法，不过感觉跟AlexNet还是挺像的，如上图所示，paper提出的是把图片裁剪成6张大小不同的图片，然后对每张图片分别进行预测，经过网络，得到分类向量。当然输入6张大小不一的图片，只是其中的一小步，对于我们来说，没啥疑问，但是真正有疑问的是，每一种输入的图片因为大小不同，最后在卷积层与全连接层

在这里我们以输入一张图片为例(6张图片每一种的计算方法都相同)，其：

上面这个表格中，

从layer-5 pre-pool到layer-5 post-pool：这一步的实现是通过池化大小为(3,3)进行池化，然后△x=0、1、2,△y=0、1、2，这样我们可以得到对于每一张特征图，我们都可以得到9幅池化结果。以上面表格中的sacle1为例，layer-5 pre-pool大小是17*17，经过池化后，大小就是5*5，然后有3*3张结果图(不同offset得到的结果)。

从layer-5 post-pool到全连接层：我们知道，我们在训练的时候，从卷积层到全连接层，输入的大小是4096*(5*5)，然后进行全连接,得到4096*(1*1)。这个过程其实也是卷积，我们可以把全连接层，看成是对整张输入特征图的大小作为卷积核大小，进行卷积，这个在《Fully Convolutional Networks for Semantic Segmentation》paper又把它称之为Fully Convolutional Networks，说的简单一点就是把全连接，看成是对整个图片卷积，记住是“看成”，并没有改变网络的任何结构，因为我们在写深度学习的代码的时候，卷积层到全连接层就用到了flatten函数，当然如果你不使用flatten函数，你可以直接继续调用卷积函数，以整幅图片的大小为卷积核，进行卷积。

回归正题，回到我们这篇paper，我们知道在训练过程中，我们从layer-5 post-pool到第六层的时候，如果把全连接看成是卷积，那么其实这个时候卷积核的大小为5*5，因为训练的时候，layer-5 post-pool得到的结果是5*5。因此在预测分类的时候，假设layer-5 post-pool 得到的是7*9(上面表格中的scale 3)，经过5*5的卷积核进行卷积后，那么它将得到(7-5+1)*(9-5+1)=3*5的输出。

beihangzxm123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CNN应用之基于Overfeat的物体检测-2014 ICLR-未完待续

转载自：深度学习（二十）CNN应用之基于Overfeat的物体检测-2014 ICLR-未完待续 - hjimce的专栏 - 博客频道 - CSDN.NEThttp://blog.csdn.net/hjimce/article/details/50187881基于Overfeat的物体检测原文地址：作者：hjimce一、相关理论本
复制链接

扫一扫

专栏目录