（VQA）LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Que

本文链接：https://blog.csdn.net/wangxiaoxiaodeer/article/details/122050398

LRTA是Look, Read, Think, Answer的缩写，是一种模仿人类解决问题步骤的视觉问答框架。该模型通过场景图生成、语义解析、视觉推理和完整答案生成四个步骤，提供人类可读的推理过程。研究指出，现有的VQA模型存在忽略重要问题词、关注错误图像区域和依赖表面统计关联等问题。LRTA旨在解决这些问题，通过端到端训练，从像素到答案，提高了模型的可解释性和理解力。" 78853667,5765583,安卓通过UDP与串口服务器进行硬件交互,"['Android开发', '硬件接口', '网络通信', '数据传输', '数据校验']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

发表于2020年的一篇文章

LRTA神经符号推理框架

视觉问答目前的主要方法依赖于“黑盒”神经编码器()对图像问题进行编码，难以为预测过程提供直观的、人类可读的证明形式，

本文提出了LRTA： Look Read Think Answer, 模型像人类一样一步一步地解决问题，并在每一步提供人类可读的证明形式。

过程:

1 学习首先将一幅图像转换成场景图

2 将一个问题解析成多条推理指令

3 使用循环的神经符号执行模块遍历场景图，一次执行一个推理指令。

4 最后生成带有自然语言理由的给定问题的完整答案

作者认为：不同于现有模型倾向于从训练数据中学习表面相关性，基于LRTA的框架，朝着真正理解问题迈出了一步。

Introduction

现有的VQA主要方法依赖于黑盒Transformer对图像和问题进行编码，这些工作在内部执行复杂的计算，但只产生单个标记作为预测输出( 比如 “是”或者“否”），因此他们努力想要提供与他们的预测一致的直观的、人类可读的证明形式。

最近研究证明了这些模型一些缺陷行为

1 倾向于忽略重要的问题术语

使用归因方法发现该系统只依赖于像 how 和bricks这样的几个词，因此事实上可以构建一个让系统出错的对抗问题，比如“how spherical are the white bricks on either side of the building?”,系统会返回相同的答案“verys”,

文章中提出的工作的前提是，很多人擅长回答问题，即便不能检查数据集是否代表真实世界，也可以识别重要的问题词，并预期它们在问题回答中的作用。

两个步骤：