Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships

最新推荐文章于 2023-07-05 15:16:59 发布

steph_curry

最新推荐文章于 2023-07-05 15:16:59 发布

阅读量260

点赞数

分类专栏： Object Detection

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/steph_curry/article/details/96188547

版权

Object Detection 专栏收录该内容

22 篇文章

订阅专栏

CVPR18

这篇文章讨论在检测人物中context的利用，忽略context的信息是不妥的，检测问题应该是congnitive问题和reasoning问题的结合。文章提出的方法是在检测框架中嵌入一个Graph模块,其中各个目标物体被视作node, 之间的关系是edge。通过graph来不断refine目标的状态信息。

这里的baseline是faster rcnn，可以看到RPN生成候选bbox后，接着RoIPooling, FC, 每个ROI的特征变成向量，这些向量构成GRU的结点。注意，这里有两种GRU， scene GRU和edge GRU。 scene的输入是整幅图特征按ROI一样的方式编码的向量， scene GRU目的是想通过整个环境信息来更新每个目标的特征(比如，海上不可能有车)。 edge GRU的输入是其它结点传递给当前结点的融合信息。 edge GRU目的是通过目标之间相互关系来更新目标特征（比如电脑很可能和鼠标在一起）。这个图模块细节如下：

其中edge GRU的输入的edge信息包含viasual和spatial position信息。

具体细节先不看了。

小结：

GRU这种从领域收集信息更新当前结点信息的方式应该还是有一定作用的，在pose estimation中也许还有尝试的可能吧；

对于pose estimation来说， GRU在最终prediction的heatmap上操作恐怕不是很好，在特征层操作可能更有效，又或者说二者结合。 fc层的加入转为vector编码的特征应该也是有益的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。