CVPR18
这篇文章讨论在检测人物中context的利用, 忽略context的信息是不妥的, 检测问题应该是congnitive问题和reasoning问题的结合。文章提出的方法是在检测框架中嵌入一个Graph模块,其中各个目标物体被视作node, 之间的关系是edge。通过graph来不断refine目标的状态信息。
这里的baseline是faster rcnn,可以看到RPN生成候选bbox后, 接着RoIPooling, FC, 每个ROI的特征变成向量, 这些向量构成GRU的结点。注意, 这里有两种GRU, scene GRU和edge GRU。 scene的输入是整幅图特征按ROI一样的方式编码的向量, scene GRU目的是想通过整个环境信息来更新每个目标的特征(比如,海上不可能有车)。 edge GRU的输入是其它结点传递给当前结点的融合信息。 edge GRU目的是通过目标之间相互关系来更新目标特征(比如电脑很可能和鼠标在一起)。这个图模块细节如下:
其中edge GRU的输入的edge信息包含viasual和spatial position信息。
具体细节先不看了。
小结:
GRU这种从领域收集信息更新当前结点信息的方式应该还是有一定作用的, 在pose estimation中也许还有尝试的可能吧;
对于pose estimation来说, GRU在最终prediction的heatmap上操作恐怕不是很好, 在特征层操作可能更有效,又或者说二者结合。 fc层的加入转为vector编码的特征应该也是有益的。