Check It Again:论文整理

蕴含简介
  • 文本蕴含:文本间的推理关系,又称为文本蕴含关系,作为一种基本的文本间语义联系,广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提,另一个文本作为假设,如果根据前提P能够推理出假设H,那么就说P蕴含H,记作P->H(前提->假设)。
  • 视觉蕴含:也就是把前提改成了图片,而不是之前的文字,由图片来推出假设是否成立。
解决问题

作者发现,目前通用的VQA模型,或是基于语言先验的模型,都产生了一个不可忽略的问题。都通过一个最佳输出来预测正确答案,而不检查答案的真实性。而且这些模型没有很好的利用答案的语义信息来缓解语言先验。
为了解决上述问题,提出了本文的方法。

研究方法和创新点

作者提出了一个选择再排序的渐进框架来解决语言先验问题。表明这个框架可以很好的和其他模型结合,并进一步提高他们的能力。强调了文本和图像之间的验证过程,并将VQA任务表述为一个视觉蕴含问题。该过程充分利用了图像、问题和候选答案的交互信息。
选择重新排序(SAR)框架:由一个候选答案选择模块(Candidate Answer Selecting module)和一个答案重新排序模块Answer Re-ranking module组成。
CAS:给定一个图像和一个问题,我们首先使用当前VQA模型得到一个前N个答案组成的候选答案集。这个模块可以将无关的答案过滤掉。
VE:在答案重新排序模块中将VQA表示为VE任务,其中图像的前提,合成的答案和问题的组合是假设。

流程和模块:

SAR
在这里插入图片描述
LXMERT
图像特征包含位置信息
在这里插入图片描述
在这里插入图片描述

  • CAS
    CAS首先给出所有可选答案的回归分数,然后CAS选择N个得分最高的答案作为候选,即为:
    在这里插入图片描述
  • Answer Re-ranking module
    一个问题和每个候选答案可以桥接成一个完整的陈述,然后图像可以验证每个陈述的真实性。将VQA表述为一个VE问题,其中图像是前提,合成陈述是假设。合成语句也称为”密集标题“。
    • 问答组合策略
      • R 用答案替换类别前缀。如:No a crosswalk是Is this a crosswalk的结果。
      • C 直接把问题和答案串联起来。例如:8 How many flowers in the case?
      • R→C 在训练时使用R策略,防止模型过度关注问题类别和答案的共现关系,测试时使用C策略,引入更多信息进行推断。
  • 使用预训练的LXMERT对图像和答案问题组合的视觉蕴含度进行评分。将图像及其第n个候选标题的VE评分表示为:
    在这里插入图片描述
    Trm()是LXMERT之后密集层的输出。分数越大则表示蕴含度越高。通过最小化多标签软损失来优化参数:
    在这里插入图片描述
  • 结合语言先验法
    在这里插入图片描述
    在这里插入图片描述
实验设置
  • 数据集:VQA-CP VQA v2
  • baselines:
    • UpDn,Areg,…
    • LXMERT
  • SAR+SSL
    • epoch 20
    • batch size 32
  • SAR+LMH
    • epoch 10
    • batch size 64

在用自监督损失微调模型之前,我们不需要用VQA损失预先训练模型。

  • learning rate 1e-5
  • N
实验结果和分析

在这里插入图片描述
模型朝着真正全面的VQA模型取得了重大进展。与以往的方法不同的是,我们的方法可以减少语言先验,同时保持良好的回答问题的能力。
在这里插入图片描述
随着N的增加,Accuracy逐渐变好。作者认为增加N,可以进一步获得更好的性能。
在这里插入图片描述
作者发现选择更好的VQA模型作为CAS并不能保证更好的性能。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
当N太小时,正确答案可能无法被CAS召回;当N过大时,错误答案的影响使模型更难选择正确答案。

结论

基于图像蕴含的SAR渐进框架,建立了一个新的最先进的准确率为66.73%。

论文代码
论文图像补充

top12+SAR
在这里插入图片描述
Top20-SAR+LMH
在这里插入图片描述
n对不同问题类型的影响
lmh:
在这里插入图片描述
ssl:
在这里插入图片描述
不同阈值对score的影响:
在这里插入图片描述

组会
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值