简介
动机
已有方法不能准确地、一致地表示两种模态(referring expressions、object proposals)的上下文关系,具体为:
- 要么不能准确建模,要么不能达到跨模态的高阶一致性。
- 计算出的pairwise visual differences只能代表同类对象之间、instance-level的差异。
- 要么不支持关系建模,要么只考虑一阶关系。
- 由于多阶关系是结构化的信息,现有的上下文编码器无法对其建模。
方法
以regions为结点构图,将结点和word对齐,再进行图卷积。
实验
在RefCOCO、RefCOCO+和RefCOCOg上的实验结果:
Ablation study: