目标检测：SPP-net

最新推荐文章于 2023-11-30 15:17:46 发布

VIP文章 tinyzhao

最新推荐文章于 2023-11-30 15:17:46 发布

阅读量1.2w

点赞数 5

分类专栏： Computer Vision Deep Learning 文章标签： RCNN 目标检测深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tinyzhao/article/details/53717136

版权

《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》论文解读

本文来自Kaiming He大神。

上文说到R-CNN的最大瓶颈是2k个候选区域都要经过一次CNN，速度非常慢。Kaiming He大神最先对此作出改进，提出了SPP-net，最大的改进是只需要将原图输入一次，就可以得到每个候选区域的特征。

概述

在R-CNN中，候选区域需要进过变形缩放，以此适应CNN输入，那么能不能修改网络结构，使得任意大小的图片都能输入到CNN中呢？作者提出了spatial pyramid pooling结构来适应任何大小的图片输入。

网络结构

为什么CNN需要固定输入大小？卷积层和池化层的输出尺寸都是和输入尺寸相关的，它们的输入是不需要固定图片尺寸的，真正需要固定尺寸的是最后的全连接层。

这里写图片描述

由于FC层的存在，普通的CNN通过固定输入图片的大小来使得全连接层输入固定。作者不这样思考，既然卷积层可以适应任何尺寸，那么只需要在卷积层的最后加入某种结构，使得后面全连接层得到的输入为固定长度就可以了。这个结构就是spatial pyramid pooling layer：

最低0.47元/天解锁文章

关注

5
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
目标检测：SPP-net

《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》论文解读本文来自Kaiming He大神。上文说到R-CNN的最大瓶颈是2k个候选区域都要经过一次CNN，速度非常慢。Kaiming He大神最先对此作出改进，提出了SPP-net，最大的改进就是只需要将原图输入一次，就可以得到每个候选区域的特
复制链接

扫一扫

专栏目录

tinyzhao CSDN认证博客专家 CSDN认证企业博客

码龄8年

43: 原创

13万+: 周排名

145万+: 总排名

38万+: 访问

: 等级

3445: 积分

182: 粉丝

115: 获赞

86: 评论

382: 收藏

私信

关注

热门文章

分类专栏

人脸识别 10篇
Computer Vision 18篇
Algorithm 2篇
Python 10篇
Android 6篇
Java 4篇
OpenCV 2篇
Deep Learning 17篇
Face Analysis 11篇
Computer Graphics 3篇
Linux 1篇

最新评论

人脸对齐：Procrustes analysis
sereiiii_x: 请问下这篇论文的名字是？
EVM算法的Python实现
hhhhhhhhhhkkkkkkkkkk: 我按照下面的说法把np.abs换成np.real之后，变化频率就与原作者的一致了。
EVM算法的Python实现
hhhhhhhhhhkkkkkkkkkk: 为何我把face.mp4设置参数与原作者的一样后得到的视频比原作者的快一倍？
EVM算法的Python实现
ambition0727: github上下载的zip里的视频播放不了
EVM算法的Python实现
weixin_44090963: 为什么我16g内存还是会显示不够，后台显示这个代码用了高达10g以上的内存

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。