背景
这篇论文是美国东北大学的工作,接收于ICCV2019
动机
图文匹配任务的challenge在于,当前的图像表示通常缺乏全局语义概念(?)。作者提出模型VSRN,包含一个推理模块来生成视觉特征表示。具体地,第一步先构建图像regions之间的关系矩阵,在其上使用GCN来捕捉带有语义联系的visual features;接下来,利用得到的relationship enhanced features,输入到GRU中执行全局推理。
模型结构
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201122152037365.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NzZG5fdGNseg==,size_16,color_FFFFFF,t_70#pic_center)
方法
Region Relationship Reasoning
区域 v i v_i