论文标题
EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering 地球VQA:基于关系推理的遥感视觉问答,迈向可查询地球
论文链接
论文作者
Junjue Wang, Zhuo Zheng, Zihang Chen, Ailong Ma, Yanfei Zhong
内容简介
本文提出了EarthVQA,一个多模态多任务的视觉问答(VQA)数据集,旨在通过关系推理来提升遥感图像的问答能力。EarthVQA数据集包含6000张图像、相应的语义掩码和208,593个问答对,涵盖城市和农村治理需求。为了解决现有VQA方法在复杂场景中对物体关系的忽视,本文提出了语义物体感知框架(SOBA),该框架通过分割网络生成物体语义,并利用对象引导的注意力机制进行关系建模。实验结果表明,SOBA在多个任务中优于现有的通用和遥感方法,展示了其在复杂地球视觉分析中的潜力。
分点关键点
-
EarthVQA数据集
- EarthVQA数据集包含6000张高空间分辨率遥感图像,208,593个问答对,涵盖六大类任务,从简单的判断和计数到复杂的关系推理和综合分析。数据集特别关注城市规划需求,嵌入了与住宅环境、交通状况和水体翻新相关的问题。
-
语义物体感知框架(SOBA)
- SOBA框架通过分割网络生成精确的物体语义特征,并利用对象引导的混合注意力机制来建模物体之间的关系。该框架能够有效地处理复杂的地理空间对象关系,提升VQA的准确性和实用性。
-
数值差损失(ND Loss)
- 为了增强回归问题的距离敏感性,本文提出了数值差损失(ND Loss),该损失函数将分类和回归任务统一到一个优化框架中。ND Loss通过动态惩罚机制,提升了模型在物体计数任务中的表现。
-
实验结果与比较
- 实验结果显示,SOBA在EarthVQA测试集上优于多种先进的VQA方法,展示了其在复杂场景下的有效性。通过与其他遥感VQA方法的比较,SOBA在准确性和鲁棒性方面均表现出色。
- 实验结果显示,SOBA在EarthVQA测试集上优于多种先进的VQA方法,展示了其在复杂场景下的有效性。通过与其他遥感VQA方法的比较,SOBA在准确性和鲁棒性方面均表现出色。
论文代码
代码链接:https://github.com/JunjueWang/EarthVQA
中文关键词
- 遥感视觉问答
- 关系推理
- 语义物体感知
- 多模态数据集
- 数值差损失
- 城市规划
AAAI论文合集:
希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!