发表于2020年的一篇文章
LRTA神经符号推理框架
视觉问答目前的主要方法依赖于“黑盒”神经编码器()对图像问题进行编码,难以为预测过程提供直观的、人类可读的证明形式,
本文提出了LRTA: Look Read Think Answer, 模型像人类一样一步一步地解决问题,并在每一步提供人类可读的证明形式。
过程:
1 学习首先将一幅图像转换成场景图
2 将一个问题解析成多条推理指令
3 使用循环的神经符号执行模块遍历场景图,一次执行一个推理指令。
4 最后生成带有自然语言理由的给定问题的完整答案
作者认为:不同于现有模型倾向于从训练数据中学习表面相关性,基于LRTA的框架,朝着真正理解问题迈出了一步。
Introduction
现有的VQA主要方法依赖于黑盒Transformer对图像和问题进行编码,这些工作在内部执行复杂的计算,但只产生单个标记作为预测输出( 比如 “是”或者“否”),因此他们努力想要提供与他们的预测一致的直观的、人类可读的证明形式。
最近研究证明了这些模型一些缺陷行为
1 倾向于忽略重要的问题术语
使用归因方法发现该系统只依赖于像 how 和bricks这样的几个词,因此事实上可以构建一个 让系统出错的对抗问题,比如“how spherical are the white bricks on either side of the building?”,系统会返回相同的答案“verys”,
文章中提出的工作的前提是,很多人擅长回答问题,即便不能检查数据集是否代表真实世界,也可以识别重要的问题词,并预期它们在问题回答中的作用。
两个步骤:
- 应用集成梯度IG将系统的预测归因于问题中的单词,提出了属性的可视化
- 找出归因暴露出的网络逻辑中的弱点,(例如依赖于不重要的词),并利用它们来制造对抗性问题。
文中工作的一个重要贡献是对问答网络进行了过稳定性测试, liang的文章表明,阅读理解网络对修改语义的文章过于稳定,本文发现这种过于稳定也使用于问题。
文中使用属性来定义用于测量过度稳定程度的通用测试,涉及到测量网络的准确度如何随着系统地从问题中删除单词而发生变化的。
2 看错误的图像区域
本文对VQA中的“人类注意力”进行了大规模研究,以了解人类选择在哪里回答有关图像的问题。
文章从定性(通过可视化)和定量(通过等级顺序相关)两个方面对最先进的VQA模型生成的注意力图与人类注意力进行了评估,实验表明,目前VQA中的注意力模型似乎并不像人类那样关注相同的区域
集中注意力是有帮助的。人类有能力通过有选择地关注图像的部分而不是处理整个场景来快速感知场景。这种智能选择查看位置的能力是特定于任务的,有助于降低问题的复杂性,因为注视可以集中在感兴趣的区域,忽略背景的杂乱。受人类注意力的启发,计算机视觉和深度学习的一个最新趋势是建立注意力的计算模型。
视觉问题有选择性地针对图像的不同区域,包括背景细节和底层上下文,这表明VQA模型可以从显性或隐性的注意机制中受益,从而正确地回答问题。本文设计并进行研究以收集