少样本-图像Improving Zero-Shot Phrase Grounding via Reasoning on External Knowledge and Spatial Relations

Improving Zero-Shot Phrase Grounding via Reasoning on External Knowledge and Spatial Relations

这是22年的文章,是在图像和文本匹配下的小样本问题,第一次见这种问题,我主要是因为zero-shot吸引的。
文章面对的问题是phrase grounding,大概意思就是在图片中找到文本提到的某个短语对应的图片中的事物。

那该问题涉及到的子问题有:文字中短语的挖掘?图像中事物的识别——目标检测? 短语和目标图像的匹配测算?

1.introduction——背景

在背景部分的介绍中,对于这一问题的解决范式,作者给出了介绍,大致是两种,一种是两阶段的解决:第一步通过目标检测器获得图中的proposal,第二步是计proposal和query之间的匹配度。
另一种是单阶段的解决,是直接在不同分辨率中的图片中生成密度候选区域(dense candidate proposal),然后与query做匹配计算。

现有研究有哪些不足?可能会面临的问题有:1是新的phrase出现,在训练集中没有见过的。2是新的object 类别,就是在训练集中没有过的子图像。
人类是可以根据以往的经验和知识对新事物完成推理。
创新点的提出:集成了single-stage中的dense candidate proposal model,将dense proposal连接到two stage模型下检测出的target proposal的location位置。
这篇文章做了什么?: 将常识性的知识加入到推理过程中,构建了多模态的知识图谱,(subject就是phrase,object大概是对应的image),利用图卷积运算完成图推理的过程。另外一点是空间位置的推理,是计算object和target proposal之间的位置关系,(定义了8种两者之间的位置关系,基于它们的
交叉联合(IoU)值、相对距离d以及相对角度θ
。内侧、覆盖、重叠、左上角、右上角、左下角、右下角和不相关。)

在这里插入图片描述
这图对于理解文章的创新点有些帮助,这个的任务是找到图中的拐杖。

总结来看,是三个方面的创新,一是外部知识图谱的引入,而是基于图的推理,三是空间关系推理。

2.模型方法

模型中有三个损失值,

在这里插入图片描述

二元分类的焦点损失LF(α=0.25,γ=2)
回归参数预测的平滑-L1损失LS
以及预测的spatial relations si和 ground truth sˆi之间的交叉熵损失LC。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值