少样本-图像Improving Zero-Shot Phrase Grounding via Reasoning on External Knowledge and Spatial Relations

最新推荐文章于 2024-09-11 14:42:31 发布

YingJingh

最新推荐文章于 2024-09-11 14:42:31 发布

阅读量130

点赞数

分类专栏：论文记录文章标签：人工智能深度学习知识图谱

本文链接：https://blog.csdn.net/Hekena/article/details/129177916

版权

论文记录专栏收录该内容

147 篇文章 9 订阅

订阅专栏

Improving Zero-Shot Phrase Grounding via Reasoning on External Knowledge and Spatial Relations

这是22年的文章，是在图像和文本匹配下的小样本问题，第一次见这种问题，我主要是因为zero-shot吸引的。
文章面对的问题是phrase grounding，大概意思就是在图片中找到文本提到的某个短语对应的图片中的事物。

那该问题涉及到的子问题有：文字中短语的挖掘？图像中事物的识别——目标检测? 短语和目标图像的匹配测算?

1.introduction——背景

在背景部分的介绍中，对于这一问题的解决范式，作者给出了介绍，大致是两种，一种是两阶段的解决：第一步通过目标检测器获得图中的proposal，第二步是计proposal和query之间的匹配度。
另一种是单阶段的解决，是直接在不同分辨率中的图片中生成密度候选区域（dense candidate proposal），然后与query做匹配计算。

现有研究有哪些不足？可能会面临的问题有：1是新的phrase出现，在训练集中没有见过的。2是新的object 类别，就是在训练集中没有过的子图像。
人类是可以根据以往的经验和知识对新事物完成推理。
创新点的提出：集成了single-stage中的dense candidate proposal model，将dense proposal连接到two stage模型下检测出的target proposal的location位置。
这篇文章做了什么？: 将常识性的知识加入到推理过程中，构建了多模态的知识图谱，（subject就是phrase，object大概是对应的image），利用图卷积运算完成图推理的过程。另外一点是空间位置的推理，是计算object和target proposal之间的位置关系，（定义了8种两者之间的位置关系，基于它们的交叉联合（IoU）值、相对距离d以及相对角度θ。内侧、覆盖、重叠、左上角、右上角、左下角、右下角和不相关。）

在这里插入图片描述
这图对于理解文章的创新点有些帮助，这个的任务是找到图中的拐杖。