论文分享——SGMN

文章出处

由于课程project需要,在准备proposal的时候阅读了这篇论文《Graph Structured Referring Expression Reasoning in the Wild》,论文发表在2020年的CVPR会议,作者来自香港大学和中山大学。

文章贡献

本文 focus 的问题是多模态的,具体为根据所给的句子,在图片中标注出句子所描述的物体(object)。作者提出了一个模型:根据所给句子的语言结构,在图片的语义图(semantic graph)和场景图(scene graph)中,利用神经模型做推理。

此外,文章还提供了一个大型数据集,包含了大量语句,并有丰富的属性、描述词等内容。

方法 & 模型

模型取名为:scene graph guided modular network (SGMN)
接受一张图片和一个表达式为输入,构造图片的语义图(semantic graph)以及语句的场景图(scene graph),然后利用模块化的网络进行推理。

Graph Representation

图片语义图能够灵活地捕捉并且表示 expression 中的图片内容,而语言场景图则是挖掘了输入语句的语言结构,来给推理过程提供支撑。值得一提的是,两个 graph 具有一致的结构,即语言场景图中的节点和边,分别是图片语义图中节点的子集、边的子集。

Image Semantic Graph

假设图片中有 N 个物体 O = { o i } i = 1 N \mathcal{O}=\{o_i\}_{i=1}^{N} O={ oi}i=1N,那么语义图就可以定义为 G o = ( V o , E o ) \mathcal{G}^o=(\mathcal{V}^o, \mathcal{E}^o) Go=(Vo,Eo),其中 V o = { v i o } i = 1 N \mathcal{V}^o=\{v_i^o\}_{i=1}^{N} Vo={ vio}i=1N 是节点的集合,而每个节点对应一个物体;边 E o = { e i j o } i , j = 1 N \mathcal{E}^o=\{e_{ij}^o\}_{i,j=1}^{N} Eo={ eijo}i,j=1N 是有向边的集合,每条边 e i j o = v j o → v i o e_{ij}^o=v_j^o\to v_i^o eijo</

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值