关于R-FCN的几个问题

流程:主网络是Resnet,然后经过卷积,得到新的特征图,然后有个并联分支,上面的分支将特征图输入到RPN(区域提取网络)中,进行检测框的分类和回归(一些卷积操作是针对整幅feature map的,只是在分类和回归时,操作的是检测框大小的feature map),下面的分支进行的是卷积操作,生成的feature map大小和输入一样,通道数是k^2*(C+1),含义是对于每一个ROI,均匀划分为k*k个块(每个块大小的大小是w/k,h/k),含义是如果ROI属于某一类,那么划分的每一个块都属于该类的某一部分,那么它对应的score map就会高。C+1是指前景类别C+背景类别数。RPN可以选出一些ROI,这些ROI在并联下面分支的位置是已知的。然后进行第二步的分类和回归:首先是分类,对于一个ROI,它的特征图channel是k^2(C+1),进行avg pooling,得到大小为k^2,channel数为C+1的特征图,然后对每一幅特征图中的元素进行add操作,得到1*(C+1)维数据,然后经过softmax进行分类。对于回归而言,童谣类似的操作,即并联分支得到的特征图channel是4k^2,最后回归得到4个值,即检测框的相关值。

Question 1:平移不变性和平移敏感性?

Anwser:平移不变性是指原图中的内容平移后,对深层网络的影响很小,这是分类网络所需要具有的性质(因为只需要检测有没有该类对象,而不需要判断对象在哪)。而目标检测对平移的敏感性体现在检测框回归任务中。

Question 2:R-FCN的平移敏感性体现在哪

Answer:通过position-sensitive score map来体现平移敏感性。

Question 3:检测速度快的原因:

Answer:faster R-CNN在进行目标检测的第二次分类和回归任务时,操作对象是单个ROI,假设最后选出的ROI个数是300个,那么需要对这300个ROI进行300次的全连接操作,耗时。而R-FCN就将对单个ROI的操作变成了对整幅feature map(ROI是从该feature map中提取的)进行操作,比满了重复计算(重复计算是指单个ROI之间可能有交集,那么faster r-cnn在第二阶段的分类和回归操作就存在了重复计算,这有点像rcnn和sppnet之间的区别,输入的是一部分图像还是一整幅图像)。对整幅feature map进行操作后,找到对应的ROI所在位置,在进行第二次的回归和分类,此时不涉及任何可训练参数的操作。

参考链接:https://www.jianshu.com/p/409fd61db9db

https://zhuanlan.zhihu.com/p/30867916

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值