Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships

CVPR18 

这篇文章讨论在检测人物中context的利用, 忽略context的信息是不妥的, 检测问题应该是congnitive问题和reasoning问题的结合。文章提出的方法是在检测框架中嵌入一个Graph模块,其中各个目标物体被视作node, 之间的关系是edge。通过graph来不断refine目标的状态信息。

这里的baseline是faster rcnn,可以看到RPN生成候选bbox后, 接着RoIPooling, FC, 每个ROI的特征变成向量, 这些向量构成GRU的结点。注意, 这里有两种GRU, scene GRU和edge GRU。 scene的输入是整幅图特征按ROI一样的方式编码的向量, scene GRU目的是想通过整个环境信息来更新每个目标的特征(比如,海上不可能有车)。 edge GRU的输入是其它结点传递给当前结点的融合信息。 edge GRU目的是通过目标之间相互关系来更新目标特征(比如电脑很可能和鼠标在一起)。这个图模块细节如下:

其中edge GRU的输入的edge信息包含viasual和spatial position信息。

 

具体细节先不看了。

小结:

GRU这种从领域收集信息更新当前结点信息的方式应该还是有一定作用的, 在pose estimation中也许还有尝试的可能吧;

对于pose estimation来说, GRU在最终prediction的heatmap上操作恐怕不是很好, 在特征层操作可能更有效,又或者说二者结合。 fc层的加入转为vector编码的特征应该也是有益的。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值