Introduction
这是一篇关于利用图像信息(scene-level context)和对象关系信息(object-object relationships)的目标检测网络。该论文把图像上的对象和对象之间的关系建模成一个图网络,如下图所示,每一个检测对象是图网络中的一个结点,而对象之间的关系(object-object relationship)是图网络的边。图网络包括结点 V V V、有向边 E E E和全景信息 s s s(scene)。
要理解这篇论文要知道怎么生成图网络 G = ( V , E , s ) G=(V,E,s) G=(V,E,s)和如何用这个图网络进行推理。
Structure inference network
Structure inference network (SIN) 的架构如下
图像经过RPN网络后会得到ROIs,表示图像上的对象。每个ROI经过ROI Pooling和FC得到visual feature,表示图的结点node,传入Structure inference网络中。整张图像也当成一个ROI经过同样的操作生成feature scene(对scene-level context进行编码)传入Structure inference网络中。接着对对象的关系进行编码edges,同样传入Structure inference网络中。图网络的推理过程用循环网络的门控循环单元(Gated Recurrent Unit, GRU),推理过程不断更新结点的信息,最后的结点信息用于分类和bbox回归。
Structure Inference
图推理过程如下
对于某个对象结点 v i v_i vi,图上另外的对象分别表示 v 1 , v 2 , v 3 v_1, v_2, v_3 v1,v2,v3。Scene GRU 和 Edge GRU 设计用于传递信息。
Scene GRU 用于传递对象信息。GRU是循环网络的门控循环单元,它有一个隐藏(记忆)单元,隐藏单元用图像结点特征 f i v f_i^v fiv进行初始化,然后把全景内容信息 m i s = f s m_i^s=f^s mis=fs输入到Scene GRU中,这样Scene GRU输出的隐藏单元 h s h^s hs就包括对象信息和全图信息。
Edge GRU 用于传递对象关系信息。同样用 f i v f_i^v fiv初始化 Edge GRU的隐藏单元。Visual relationship vector用 f i v f_i^v fiv和 f j v f_j^v