OverFeat论文笔记

最新推荐文章于 2023-04-17 10:07:39 发布

5972次特快列车

最新推荐文章于 2023-04-17 10:07:39 发布

阅读量153

点赞数

分类专栏：基于深度学习的目标检测文章标签：计算机视觉深度学习卷积神经网络

本文链接：https://blog.csdn.net/m0_52471565/article/details/110941720

版权

基于深度学习的目标检测专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

1. Background
2. Classification
3 Localization
总结

1. Background

OverFeat是一种特征提取器，具有以下创新之处：
（1）Bounding Box位置框回归采用累积的方法而不是非极大值抑制以增大检测置信度
（2）运用多尺度和滑动窗口的方法
（3）特征提取层输出的特征可以供多个任务共享（分类，定位，检测）
（4）输入图片大小不受限制
文章中涵盖诸多细节，我们分别从分类和定位进行阐述。

2. Classification

2.1 使用AlexNet预训练模型

因为“OverFeat”是基于AlexNet模型，所以我们先回顾AlexNet模型。
在这里插入图片描述
Training:
每张训练图片下采样为256×256，随机裁剪出224×224大小的图片（+数据增强）作为输入进行训练。
Testing:
将图片下采样为256×256，随机裁剪大小为221×221像素的五个图像以及水平翻转图像（共十个）。
10张图片预测值取均值。
不足：
（1）会忽略掉图片的很多区域，且有大量的重复计算
（2）只使用单一尺度，但这个尺度不一定能让模型给出最高置信度

2.2 Multi-scale classification(OverFeat 使用)

在这里插入图片描述
同一张图片使用6种输入尺度（可以加上图片水平翻转的6个尺度），不同尺度的输入在Conv5得到不同的分辨率特征图。

offset max-pooling
在这里插入图片描述
对于pooling size=3的操作，我们有三种池化方式，起点分别在∆=0，∆=1，∆=2处
二维池化操作，则有∆x×∆y=3×3（九种池化方式）
将九种池化结果分别送入后续的网络层，最后的图片分类输出结果种每个类别有九种概率值，对每个类别的9种概率值取最大值，作为此类别的预测概率值。

2.3 FCN的思想

OverFeat模型中，layer1_{5为特征提取层，layer6}output为分类层。
在这里插入图片描述
传统的CNN模型：输入14×14的图片数据，进行5×5的conv和2×2的pooling操作后，得到5×5的特征图，展平为1维的向量数据输入全连接层（不可以输入任意尺寸的图片数据）
FCN模型：“卷积层—>全连接层”看作为对全局图像的卷积，“全连接层—>全连接层”看作为1×1的卷积核进行卷积操作。
在这里插入图片描述
FCN：若输入16×16的图片数据，网络最后输出为2×2的数据，与输入尺寸相关，对输出取均值即为结果
（用卷积网络计算滑动窗口非常的高效，重叠的区域可以共享计算数据）
对特征层直接进行sliding windows与Alexnet在网络之初对图像部分进行选取是一样的。

2.4 Training & Testing

Training:
与Alexnet类似，每张训练图片下采样为256×256，随机裁剪出221×221大小的图片作为输入进行训练。
Testing:
a. 使用6种尺度输入，网络向前传导至layer 5，得到不同大小的特征图
b. layer5-pre-pool 通过（3×3）offset进行池化，每一张特征图得到9副池化结果图
c. layer5-post-pool采用（5×5）卷积操作，并在特征图内的每个位置产生C维输出向量（C为类别数目）分类器以滑动窗口sliding windows的方式应用于池化的特征图，产生C维输出图。
d. 最终得到C×N维预测值矩阵，求取每一列的最大值作为本尺度的每个类别（C类）的概率值。
e. 六种不同尺度预测结果做平均值作为最后的结果

3 Localization

将上述网络的分类层替换为回归网络层，在每个空间位置和尺度上进行训练。
将回归预测和每个位置的分类结果结合在一起，模型最后输出class prediction + bounding box prediction
在这里插入图片描述
以281×317的图片输入为例，layer5 post-pool输出（6×7）×（3×3）的特征，经过Regression layer1-3输出2×3×3×3×C×4个（比分类多出一维：bounding box的四个坐标），损失函数采用L2 Loss function。
只采用和ground truth重合度IoU大于50%的区域进行训练。
（1）在六个尺度上运行分类网络，每个尺度选取top-k个类别。（选择置信度最高的）
（2）在六个尺度上运行bounding box网络，产生每个类别对应的bounding box集合Bs。
（3）将多个尺度的Bs融合为大集合B。
（4）重复上述步骤直到融合完成。
（5）取B中match_score最小的两个bounding box，成为b1和b2。（match_score是两个图片的距离）
（6）如果b1和b2的match_score>t（阈值），说明bounding box选取完成，算法结束
（7）否则，将B中的b1和b2去掉，加入box_merge(b1, b2)，回到步骤5.（box_merge计算两个图片边界的均值）
合并具有高置信度的边界框来得到最终预测，淘汰低置信度以及低连续的类别。

总结

本文中很重要的贡献是将FCN和offset-pooling相结合，在CNN特征提取和迁移学习上起到的显著效果。并在一个卷积网络框架中通过Multi-scale和sliding windows的方式同时进行多个任务。证明多视野训练和多尺度测试的有效性。不足是对标签信息的依赖比较大，且滑动窗口法的边界框预测可能不够准确。

5972次特快列车

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
OverFeat论文笔记

文章目录1. Background2. Classification2.1 使用AlexNet预训练模型2.2 Multi-scale classification(OverFeat 使用)2.3 FCN的思想2.4 Training & Testing3 Localization总结1. BackgroundOverFeat是一种特征提取器，具有以下创新之处：（1）Bounding Box位置框回归采用累积的方法而不是非极大值抑制以增大检测置信度（2）运用多尺度和滑动窗口的方法（3）
复制链接

扫一扫