Check It Again:论文整理

但愿此生，从未邂逅

已于 2022-12-09 13:48:41 修改

阅读量336

点赞数 1

文章标签：人工智能深度学习计算机视觉

于 2022-11-11 13:09:15 首次发布

本文链接：https://blog.csdn.net/qq_56551150/article/details/127768546

版权

蕴含简介

文本蕴含：文本间的推理关系，又称为文本蕴含关系，作为一种基本的文本间语义联系，广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系，其中一个文本作为前提，另一个文本作为假设，如果根据前提P能够推理出假设H，那么就说P蕴含H，记作P->H（前提->假设）。
视觉蕴含：也就是把前提改成了图片，而不是之前的文字，由图片来推出假设是否成立。

解决问题

作者发现，目前通用的VQA模型，或是基于语言先验的模型，都产生了一个不可忽略的问题。都通过一个最佳输出来预测正确答案，而不检查答案的真实性。而且这些模型没有很好的利用答案的语义信息来缓解语言先验。
为了解决上述问题，提出了本文的方法。

研究方法和创新点

作者提出了一个选择再排序的渐进框架来解决语言先验问题。表明这个框架可以很好的和其他模型结合，并进一步提高他们的能力。强调了文本和图像之间的验证过程，并将VQA任务表述为一个视觉蕴含问题。该过程充分利用了图像、问题和候选答案的交互信息。
选择重新排序（SAR）框架：由一个候选答案选择模块（Candidate Answer Selecting module）和一个答案重新排序模块Answer Re-ranking module组成。
CAS：给定一个图像和一个问题，我们首先使用当前VQA模型得到一个前N个答案组成的候选答案集。这个模块可以将无关的答案过滤掉。
VE:在答案重新排序模块中将VQA表示为VE任务，其中图像的前提，合成的答案和问题的组合是假设。

流程和模块：

SAR
在这里插入图片描述
LXMERT
图像特征包含位置信息

CAS
CAS首先给出所有可选答案的回归分数，然后CAS选择N个得分最高的答案作为候选，即为：
Answer Re-ranking module
一个问题和每个候选答案可以桥接成一个完整的陈述，然后图像可以验证每个陈述的真实性。将VQA表述为一个VE问题，其中图像是前提，合成陈述是假设。合成语句也称为”密集标题“。
- 问答组合策略
  - R 用答案替换类别前缀。如：No a crosswalk是Is this a crosswalk的结果。
  - C 直接把问题和答案串联起来。例如：8 How many flowers in the case?
  - R→C 在训练时使用R策略，防止模型过度关注问题类别和答案的共现关系，测试时使用C策略，引入更多信息进行推断。
使用预训练的LXMERT对图像和答案问题组合的视觉蕴含度进行评分。将图像及其第n个候选标题的VE评分表示为:

Trm()是LXMERT之后密集层的输出。分数越大则表示蕴含度越高。通过最小化多标签软损失来优化参数：
结合语言先验法

实验设置

数据集：VQA-CP VQA v2
baselines:
- UpDn,Areg,…
- LXMERT
SAR+SSL
- epoch 20
- batch size 32
SAR+LMH
- epoch 10
- batch size 64

在用自监督损失微调模型之前，我们不需要用VQA损失预先训练模型。

learning rate 1e-5
N

实验结果和分析

在这里插入图片描述
模型朝着真正全面的VQA模型取得了重大进展。与以往的方法不同的是，我们的方法可以减少语言先验，同时保持良好的回答问题的能力。

随着N的增加，Accuracy逐渐变好。作者认为增加N，可以进一步获得更好的性能。
在这里插入图片描述
作者发现选择更好的VQA模型作为CAS并不能保证更好的性能。

在这里插入图片描述

当N太小时，正确答案可能无法被CAS召回；当N过大时，错误答案的影响使模型更难选择正确答案。

结论

基于图像蕴含的SAR渐进框架，建立了一个新的最先进的准确率为66.73%。

论文代码

论文图像补充

top12+SAR
在这里插入图片描述
Top20-SAR+LMH

n对不同问题类型的影响
lmh:

ssl:

不同阈值对score的影响：

组会

但愿此生，从未邂逅

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Check It Again:论文整理

文本蕴含：文本间的推理关系，又称为文本蕴含关系，作为一种基本的文本间语义联系，广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系，其中一个文本作为前提，另一个文本作为假设，如果根据前提P能够推理出假设H，那么就说P蕴含H，记作P->H（前提->假设）。视觉蕴含：也就是把前提改成了图片，而不是之前的文字，由图片来推出假设是否成立。
复制链接

扫一扫