蕴含简介
- 文本蕴含:文本间的推理关系,又称为文本蕴含关系,作为一种基本的文本间语义联系,广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提,另一个文本作为假设,如果根据前提P能够推理出假设H,那么就说P蕴含H,记作P->H(前提->假设)。
- 视觉蕴含:也就是把前提改成了图片,而不是之前的文字,由图片来推出假设是否成立。
解决问题
作者发现,目前通用的VQA模型,或是基于语言先验的模型,都产生了一个不可忽略的问题。都通过一个最佳输出来预测正确答案,而不检查答案的真实性。而且这些模型没有很好的利用答案的语义信息来缓解语言先验。
为了解决上述问题,提出了本文的方法。
研究方法和创新点
作者提出了一个选择再排序的渐进框架来解决语言先验问题。表明这个框架可以很好的和其他模型结合,并进一步提高他们的能力。强调了文本和图像之间的验证过程,并将VQA任务表述为一个视觉蕴含问题。该过程充分利用了图像、问题和候选答案的交互信息。
选择重新排序(SAR)框架:由一个候选答案选择模块(Candidate Answer Selecting module)和一个答案重新排序模块Answer Re-ranking module组成。
CAS:给定一个图像和一个问题,我们首先使用当前VQA模型得到一个前N个答案组成的候选答案集。这个模块可以将无关的答案过滤掉。
VE:在答案重新排序模块中将VQA表示为VE任务,其中图像的前提,合成的答案和问题的组合是假设。
流程和模块:
SAR
LXMERT
图像特征包含位置信息
- CAS
CAS首先给出所有可选答案的回归分数,然后CAS选择N个得分最高的答案作为候选,即为:
- Answer Re-ranking module
一个问题和每个候选答案可以桥接成一个完整的陈述,然后图像可以验证每个陈述的真实性。将VQA表述为一个VE问题,其中图像是前提,合成陈述是假设。合成语句也称为”密集标题“。- 问答组合策略
- R 用答案替换类别前缀。如:No a crosswalk是Is this a crosswalk的结果。
- C 直接把问题和答案串联起来。例如:8 How many flowers in the case?
- R→C 在训练时使用R策略,防止模型过度关注问题类别和答案的共现关系,测试时使用C策略,引入更多信息进行推断。
- 问答组合策略
- 使用预训练的LXMERT对图像和答案问题组合的视觉蕴含度进行评分。将图像及其第n个候选标题的VE评分表示为:
Trm()是LXMERT之后密集层的输出。分数越大则表示蕴含度越高。通过最小化多标签软损失来优化参数:
- 结合语言先验法
实验设置
- 数据集:VQA-CP VQA v2
- baselines:
- UpDn,Areg,…
- LXMERT
- SAR+SSL
- epoch 20
- batch size 32
- SAR+LMH
- epoch 10
- batch size 64
在用自监督损失微调模型之前,我们不需要用VQA损失预先训练模型。
- learning rate 1e-5
- N
实验结果和分析
模型朝着真正全面的VQA模型取得了重大进展。与以往的方法不同的是,我们的方法可以减少语言先验,同时保持良好的回答问题的能力。
随着N的增加,Accuracy逐渐变好。作者认为增加N,可以进一步获得更好的性能。
作者发现选择更好的VQA模型作为CAS并不能保证更好的性能。
当N太小时,正确答案可能无法被CAS召回;当N过大时,错误答案的影响使模型更难选择正确答案。
结论
基于图像蕴含的SAR渐进框架,建立了一个新的最先进的准确率为66.73%。
论文代码
论文图像补充
top12+SAR
Top20-SAR+LMH
n对不同问题类型的影响
lmh:
ssl:
不同阈值对score的影响: