论文分享——SGMN

最新推荐文章于 2024-04-18 09:54:17 发布

博主是骆驼

最新推荐文章于 2024-04-18 09:54:17 发布

阅读量1.1k

点赞数

分类专栏：论文阅读分享文章标签：深度学习

本文链接：https://blog.csdn.net/chendh1028/article/details/109716168

版权

文章出处

由于课程project需要，在准备proposal的时候阅读了这篇论文《Graph Structured Referring Expression Reasoning in the Wild》，论文发表在2020年的CVPR会议，作者来自香港大学和中山大学。

文章贡献

本文 focus 的问题是多模态的，具体为根据所给的句子，在图片中标注出句子所描述的物体（object）。作者提出了一个模型：根据所给句子的语言结构，在图片的语义图（semantic graph）和场景图（scene graph）中，利用神经模型做推理。

此外，文章还提供了一个大型数据集，包含了大量语句，并有丰富的属性、描述词等内容。

方法 & 模型

模型取名为：scene graph guided modular network (SGMN)
接受一张图片和一个表达式为输入，构造图片的语义图（semantic graph）以及语句的场景图（scene graph），然后利用模块化的网络进行推理。

Graph Representation

图片语义图能够灵活地捕捉并且表示 expression 中的图片内容，而语言场景图则是挖掘了输入语句的语言结构，来给推理过程提供支撑。值得一提的是，两个 graph 具有一致的结构，即语言场景图中的节点和边，分别是图片语义图中节点的子集、边的子集。

Image Semantic Graph

假设图片中有 N 个物体 $\mathcal{O}=\{o_i\}_{i=1}^{N}$ ，那么语义图就可以定义为 $\mathcal{G}^o=(\mathcal{V}^o, \mathcal{E}^o)$ ，其中 $\mathcal{V}^o=\{v_i^o\}_{i=1}^{N}$ 是节点的集合，而每个节点对应一个物体；边 $\mathcal{E}^o=\{e_{ij}^o\}_{i,j=1}^{N}$ 是有向边的集合，每条边 $e_{ij}^o=v_j^o\to v_i^o$

最低0.47元/天解锁文章

博主是骆驼

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
论文分享——SGMN

目录文章出处文章贡献方法 & 模型Graph RepresentationImage Semantic GraphLanguage Scene GraphReasoning推理过程叶子节点中间节点Neural Modules文章出处由于课程project需要，在准备proposal的时候阅读了这篇论文《Graph Structured Referring Expression Reasoning in the Wild》，论文发表在2020年的CVPR会议，作者来自香港大学和中山大学。文章贡献
复制链接

扫一扫

专栏目录