目录
文章出处
由于课程project需要,在准备proposal的时候阅读了这篇论文《Graph Structured Referring Expression Reasoning in the Wild》,论文发表在2020年的CVPR会议,作者来自香港大学和中山大学。
文章贡献
本文 focus 的问题是多模态的,具体为根据所给的句子,在图片中标注出句子所描述的物体(object)。作者提出了一个模型:根据所给句子的语言结构,在图片的语义图(semantic graph)和场景图(scene graph)中,利用神经模型做推理。
此外,文章还提供了一个大型数据集,包含了大量语句,并有丰富的属性、描述词等内容。
方法 & 模型
模型取名为:scene graph guided modular network (SGMN)
接受一张图片和一个表达式为输入,构造图片的语义图(semantic graph)以及语句的场景图(scene graph),然后利用模块化的网络进行推理。
Graph Representation
图片语义图能够灵活地捕捉并且表示 expression 中的图片内容,而语言场景图则是挖掘了输入语句的语言结构,来给推理过程提供支撑。值得一提的是,两个 graph 具有一致的结构,即语言场景图中的节点和边,分别是图片语义图中节点的子集、边的子集。
Image Semantic Graph
假设图片中有 N 个物体 O = { o i } i = 1 N \mathcal{O}=\{o_i\}_{i=1}^{N} O={ oi}i=1N,那么语义图就可以定义为 G o = ( V o , E o ) \mathcal{G}^o=(\mathcal{V}^o, \mathcal{E}^o) Go=(Vo,Eo),其中 V o = { v i o } i = 1 N \mathcal{V}^o=\{v_i^o\}_{i=1}^{N} Vo={ vio}i=1N 是节点的集合,而每个节点对应一个物体;边 E o = { e i j o } i , j = 1 N \mathcal{E}^o=\{e_{ij}^o\}_{i,j=1}^{N} Eo={ eijo}i,j=1N 是有向边的集合,每条边 e i j o = v j o → v i o e_{ij}^o=v_j^o\to v_i^o eijo</