Grid RCNN论文理解

最新推荐文章于 2024-05-25 09:47:13 发布

donkey_1993

最新推荐文章于 2024-05-25 09:47:13 发布

阅读量5.6k

点赞数

分类专栏：深度学习文章标签： Grid Rcnn Faster-Rcnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/donkey_1993/article/details/86285128

版权

深度学习专栏收录该内容

64 篇文章 8 订阅

订阅专栏

Grid RCNN 商汤11月份提出的论文。

论文下载地址：https://arxiv.org/abs/1811.12030

论文代码复现：

论文创新点：

1. 使用了全卷积网络来代替目标检测里面的全连接层。

2. 加入了融合机制使得标注框更加的精确。

算法整体流程：

算法的整体流程经过RPN找到候选区域，然后通过感兴趣区域得到特征图。将特征图传到全卷积网络层里面输出最终的结果。

论文主要分为三部分：

一、网格引导定位

这个是算法的具体的网络结构。感兴趣区域得到的特征图经过8个3*3的膨胀卷积和2个2*2的反卷积，在经过sigmoid函数得到9（论文中n为3）个56*56的特征图。这个增加的网络训练方法就是 9个特征图有9个监督map。每个监督map有五个点（每条线的中位点和中心点）作为标签。采用二值交叉作为优化。

网格点映射：

公式1.特征图上的点映射回原图像。

上图是9个点映射回原图的样子，它们的位置都不在同一条线上。就采用下图公式2，取不同线上面的三个点的平均值作为预测结果。

二、网格特征融合

一阶融合：

上图（a）是一阶融合。上图（a）是一阶融合。求左上角的点融合结果，就将左上角的点邻近1个单位的所有的点通过3个5*5的卷积得到新的特征图。将得到的特征图和左上角的点相加得到一阶融合的结果。

二阶融合：

上图（b）是二阶融合。求左上角的点融合结果，就将左上角的点邻近2个单位的所有的点通过3个5*5的卷积得到新的特征图。将得到的特征图和左上角的点相加得到二阶融合的结果。

三、扩展区域映射

白色的实线是我们的候选区域，我们的候选区域没有完全包含绿色标注框的所有的点。这会导致我们映射之后的9个点不能完全包含目标区域。如果我们单纯增加候选区域的面积的话会造成加入太多的背景，效果反而会差。作者的想法是不改变候选区域，只改变映射之后的原图的大小，如图虚线白色区域。大小公式如下：

四、结果

作者提出的算法在COCO里面是最好的。

发现IOU越大，Grid-Rcnn比Faster-Rcnn效果越好。

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

donkey_1993 CSDN认证博客专家 CSDN认证企业博客

码龄7年

116: 原创

3万+: 周排名

50万+: 总排名

74万+: 访问

: 等级

6591: 积分

201: 粉丝

329: 获赞

259: 评论

1870: 收藏

私信

关注

分类专栏

树莓派 1篇
编程 17篇
机器学习 28篇
论文 14篇
深度学习 64篇

最新评论

鱼眼摄像头的畸变矫正方法-python+opencv
2000nmj: 请问为什么展示图片中的棋盘格大小是6*9的，不是有7行嘛
鱼眼摄像头的畸变矫正方法-python+opencv
2000nmj: 您好，使用您的代码出现棋盘格图像角点无法检测的问题应该如何解决
跑通SOLOV1-V2实例分割代码，并训练自己的数据集。
m0_56520771: 你好，就是我的训练集能正常跑通，但是我测试的时候提示数据集没有注册，这是怎么回事
CFNet: Cascade Fusion Network for Dense Prediction
ln.nl: 论文是CEDnet的，，，，，，
Ubuntu，Windows下编译MNN的推理和模型转化工具
一纸战荒年: 博主不错，另外可以不使用ninja,win编译MNNconvert时可以使用-G "NMake Makefiles"，可以编译成功，已经完成了

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。