目录
abstract
- phrase grounding:给出一张图片和一个自然语言描述的问题,在图片中定位问题中所提到的物体。是很多问题的基础(如 image retrieval、image QA 和 video QA)。
- 在弱监督的场景中,图像区域 image regions(如proposals)和语言之间的映射在训练集中不存在。之前有方法通过在对predicted proposals 的 input queries 中获得的学习语言重建信息训练一个grounding system来解决这个问题。但这种优化仅仅是由语言模型的重建损失指导的,忽视了在proposals中的丰富的视觉信息及其他知识。
本文中,我们探讨了视觉和语言模型的关联,并利用互补的外部知识来促进弱监督grounding。我们提出了知识辅助一致性网络(Knowledge Aided Consistency Network,KAC Net)。为了利用在视觉特征中存在的互补知识,使用基于知识的池化(Knowledge Based Pooling,KBP)门来关注query-related proposals。
introduction
- 使用传统方法来训练一个phrase grounding系统需要大量的人工标注来指示输入查询与所提到的图像中对象之间的映射,浪费时间且人为因素不准确。从而引出了半监督的方法。
- 为了找到视觉和语言模型的关联,proposal generation sysgtem根据输入的图片产生一组候