Improving Zero-Shot Phrase Grounding via Reasoning on External Knowledge and Spatial Relations
这是22年的文章,是在图像和文本匹配下的小样本问题,第一次见这种问题,我主要是因为zero-shot吸引的。
文章面对的问题是phrase grounding,大概意思就是在图片中找到文本提到的某个短语对应的图片中的事物。
那该问题涉及到的子问题有:文字中短语的挖掘?图像中事物的识别——目标检测? 短语和目标图像的匹配测算?
1.introduction——背景
在背景部分的介绍中,对于这一问题的解决范式,作者给出了介绍,大致是两种,一种是两阶段的解决:第一步通过目标检测器获得图中的proposal,第二步是计proposal和query之间的匹配度。
另一种是单阶段的解决,是直接在不同分辨率中的图片中生成密度候选区域(dense candidate proposal),然后与query做匹配计算。
现有研究有哪些不足?可能会面临的问题有:1是新的phrase出现,在训练集中没有见过的。2是新的object 类别,就是在训练集中没有过的子图像。
人类是可以根据以往的经验和知识对新事物完成推理。
创新点的提出:集成了single-stage中的dense candidate proposal model,将dense proposal连接到two stage模型下检测出的target proposal的location位置。
这篇文章做了什么?: 将常识性的知识加入到推理过程中,构建了多模态的知识图谱,(subject就是phrase,object大概是对应的image),利用图卷积运算完成图推理的过程。另外一点是空间位置的推理,是计算object和target proposal之间的位置关系,(定义了8种两者之间的位置关系,基于它们的交叉联合(IoU)值、相对距离d以及相对角度θ。内侧、覆盖、重叠、左上角、右上角、左下角、右下角和不相关。)
这图对于理解文章的创新点有些帮助,这个的任务是找到图中的拐杖。
总结来看,是三个方面的创新,一是外部知识图谱的引入,而是基于图的推理,三是空间关系推理。
2.模型方法
模型中有三个损失值,
二元分类的焦点损失LF(α=0.25,γ=2)
回归参数预测的平滑-L1损失LS
以及预测的spatial relations si和 ground truth sˆi之间的交叉熵损失LC。