思考: R-CNN系列 网络结构 设计缺陷

观察

在 Fast R-CNN 中,网络最后部分的 cls reg (分类回归,即对框内实例进行标签分类)和 bbox reg (边界框回归,即对边界框进行平移回归)采用的是 双分支 并行 结构:
这里写图片描述

而且在 Faster R-CNN 中照搬了这一结构。

甚至在 Mask R-CNN 中,更是将 cls regbbox regmask 设计成 三分支 并行
这里写图片描述

思考

anchor中,绝大部分是要被打上 bg 标签 (即 分类为 “背景”)的。而 bbox reg 和 mask 又是很花时间的。

这就意味着:绝大部分被送入 bbox reg 分支mask 分支anchor,不仅是 无用的 anchor,更是 浪费GPU劳动力的 anchor

那么为何不把 多分支 并行 改成 多分支 串行 呢?

串行顺序: cls reg 分支 (分类任务) ——> bbox reg 分支 (检测任务) ——> seg 分支 (分割任务)

把 RPN(或FPN)生成的 海量 anchor 首先送入 cls reg 分支 (分类任务) 。既完成了分类任务,同时大浪淘沙,筛选后仅剩下少量的 非背景anchor,大大减少了后续的 bbox reg 分支 (检测任务) 乃至 seg 分支 (分割任务) 的工作量。

附加

但是 Kaiming He 和 Ross Girshick 怎么可能犯这么低级的错误?!所以十有八九是我错了。

后面我会仔细捋清楚 Faster R-CNN 和 Mask R-CNN 的源码实现细节,再回过头来补充。

后记

经过和师兄的讨论,发现如果要是设计为串行,那么就无法实现end-to-end训练了。说明我之前想错了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值