Fast RCNN论文总结

最新推荐文章于 2024-07-07 00:32:38 发布

行者无疆兮

最新推荐文章于 2024-07-07 00:32:38 发布

阅读量1.1k

点赞数 1

分类专栏：计算机视觉深度学习文章标签： Fast RCNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30159015/article/details/80088444

版权

深度学习同时被 2 个专栏收录

70 篇文章 9 订阅

订阅专栏

计算机视觉

63 篇文章 4 订阅

订阅专栏

1. Region Proposal (候选区域)方法比传统的滑动窗口方法获取的质量要更高。

比较常用的Region Proposal方法有：SelectiveSearch(SS，选择性搜索)、Edge Boxes（EB）。

2. Fast RCNN 目标检测流程

第一步，将这个完整的图片经过若干卷积层与max pooling层，得到一个feature map。

第二步，用selective search算法从这完整的图片中提取出object proposals，即RoI。

第三步，根据映射关系，可以得到每个object proposal对应的feature map。

第四步，将第三步得到的feature map经过RoI pooling layer得到固定大小的feature map（变小了）。

第五步，经过2层全连接层（fc），得到固定大小的RoI特征向量。

第六步，特征向量经由各自的FC层，得到两个输出向量：第一个是分类，使用softmax，第二个是每一类的bounding box回归。

3. Fast RCNN 框架

4. Fast RCNN的优点

（1）比RCNN、SPPnet有更高的准确率（mAP）

（2）训练是单阶段的，使用多任务损失（multi-task loss）

（3）在训练阶段可以更新所有的网络层（SPPnet只能更新FC层，限制的mAP）

（4）对于特征缓存，不需要磁盘存储

5. RoI pooling layer

作用：（1）将image中的rol定位到feature map中对应patch

（2）将这个feature map patch下采样为大小固定的feature再传入全连接层

6. multi-task loss

有两个损失：分类loss（Lcls），是一个N+1路的softmax输出，其中的N是类别个数，1是背景；

回归loss（Lloc），是一个4xN路输出的regressor，也就是说对于每个类别都会训练一个单独的regressor。

论文中=1，用于调整2个损失之间的平衡；

当图片是背景时：k*=0 → [k* ≥ 1]=0

当图片不是背景时：k*≥ 0 → [k* ≥ 1]=1

这里regressor的loss不是L2的，而是一个平滑的L1（预防梯度爆炸），如下公式：

7. 设计评估

（1）multi-task training 效果更好

（2）图像单一尺寸与多个尺寸效果相似

（3）更多的数据能够显著提升效果（论文中数据增强方法：50%概率进行水平翻转）

（4）不能盲目增加propsals数量，有可能导致mAP下降

（5）没有必要对所有的conv层进行finetune

行者无疆兮

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

行者无疆兮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。