论文阅读008-SPPNet-Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

最新推荐文章于 2024-08-22 11:56:04 发布

半夜萤火虫

最新推荐文章于 2024-08-22 11:56:04 发布

阅读量202

点赞数

分类专栏：计算机视觉文章标签： SPP-Net 计算机视觉卷积神经网络目标识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OTime77/article/details/96719332

版权

计算机视觉专栏收录该内容

15 篇文章 0 订阅

订阅专栏

文章目录

写在前面
本文重点
模型设计
讨论
参考文献

写在前面

SPP-Net是2015年发表在IEEE上的论文，基于R-CNN改进。

本文重点

提出了一种可以输入任意尺寸大小的图片进行训练和测试的Spatial Pyramid Pooling空间金字塔结构。
使用CNN只进行一次全图特征提取，节省时间。

模型设计

步骤一：候选框搜索

使用selective search找到2k个候选框。

步骤二：全图特征提取（1-5层）

1-5层结构与AlexNet类似，卷积层+部分池化层，对整张图进行特征提取。

步骤三：候选框特征提取（SPM）

第5层卷积层后跟有SPM空间金字塔池化结构【本文创新点】✔️

流行的CNN模型，一般需要固定尺寸的图片输入，因此研究人员会将不符合要求的图片进行crop或warp。
注：overfeat可以在测试时不限制图片尺寸大小，但训练时限制

SPM就是为解决训练和测试时输入图片尺寸受限的问题所设计的。
SPM实质是对feature map以几种方式进行池化，并把这几种池化结果组合在一起，构成fixed-length representation，再连接全连接层。
举例，SPM使用三种方式进行池化，第一种池化得到16个格子，第二种4个，第三种1个，构成（16+4+1）=21维向量，已知特征图有256张，所以fixed-length representation是21x256-d。

SPM对步骤一得到的2k个候选框分别进行候选框特征提取。【本文创新点】✔️
注：这里的候选框应该是原图映射到feature map后，feature map上的候选框。

步骤四：特征向量分类识别

使用常规的SVM算法进行特征向量分类识别，由两层全连接层和N-way分类层完成。

讨论

考虑到GPU和CUDA比较适合固定尺寸的输入，作者设计了single-size和multi-size两种方式训练，即使是multi-size也只是使用了两种尺度，感觉并没有充分打破训练时输入图片尺寸受限的约束。
这个模型主要贡献在于提高了模型的运行速度，识别准确性没有很大的提升。

参考文献

https://blog.csdn.net/v1_vivian/article/details/73275259

半夜萤火虫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。