遥感ChatGPT:用ChatGPT和可视化模型解决遥感任务
Haonan Guo, Xin Su, Chen Wu, Bo Du, Liangpei Zhang, Deren Li
2024
摘要:近年来,以ChatGPT为代表的大型语言模型(large language models, LLM)在语言理解、推理、交互等方面表现优异,吸引了来自多个领域和领域的用户和研究者。虽然llm已经显示出在自然语言和自然图像中执行类人任务的巨大能力,但其在处理遥感解译任务方面的潜力尚未得到充分挖掘。此外,遥感任务规划自动化程度的缺乏阻碍了遥感解译技术的可及性,特别是对来自多个研究领域的非遥感专家。为此,我们提出了遥感ChatGPT,一个llm驱动的代理,利用ChatGPT连接各种基于人工智能的遥感模型来解决复杂的口译任务。具体来说,给定一个用户请求和一张遥感图像,我们利用ChatGPT了解用户请求,根据任务的功能进行任务规划,迭代执行每个子任务,并根据每个子任务的输出生成最终响应。考虑到LLM是用自然语言训练的,不能直接感知遥感图像中包含的视觉概念,我们设计了视觉线索,将视觉信息注入ChatGPT。使用Remote Sensing ChatGPT,用户可以简单地发送带有相应请求的遥感图像,并从Remote Sensing ChatGPT获得口译结果和语言反馈。实验和实例表明,遥感ChatGPT可以处理广泛的遥感任务,并且可以通过更复杂的模型(如遥感基础模型)扩展到更多的任务。Remote Sensing ChatGPT的代码和演示可以在https://github.com/HaonanGuo/Remote-Sensing-ChatGPT上公开获得。
论文面对的问题:如何组织各种遥感解译任务,如场景分类、对象检测、语义分割、图像描述等任务来解决现实世界用户的请求仍然是一个挑战。任务规划缺乏自动化阻碍了遥感判读技术的普及,特别是对来自多个研究领域的非遥感专家而言。LLM在遥感领域的潜力尚未得到充分开发。尽管一些初步研究探索了ChatGPT在遥感任务中的适用性,但他们只是将为自然图像设计的方法应用于遥感图像,尚未考虑将遥感模型与ChatGPT集成。此外,还没有对不同逻辑模块的任务调用性能进行定量评估的研究。
方法总体概述:提出了遥感ChatGPT,这是一个类似ChatGPT的系统,能够理解用户的请求,规划遥感解译任务,并生成最终产品和对用户的响应。我们基于ChatGPT和支持各种解释任务的多个基于人工智能的遥感模型构建了遥感ChatGPT。我们希望遥感ChatGPT能够推动非专家人员使用遥感判读技术,这些人员正在从事多个领域的应用工作。这是遥感任务规划自动化的一次有意义的尝试,是实现全自动遥感图像解译的关键一步。通过定量和定性评估,探讨了遥感ChatGPT在不同LLM主干网下的性能。我们还讨论了设计类ChatGPT遥感系统的局限性和未来方向。
遥感ChatGPT能够利用ChatGPT和遥感解译模型解决遥感任务。借助遥感ChatGPT,用户只需发送一张带有相应语言请求的遥感图像,即可获得判读结果和语言反馈。
考虑到ChatGPT是一种语言模型,不能直接访问图像,我们引入了BLIP模型来为遥感图像添加字幕,从而为ChatGPT提供视觉线索以更好地理解图像。
遥感ChatGPT目前支持调用不同的遥感任务,如场景分类、土地利用分类、目标检测、图像字幕、边缘检测、多边形化和目标计数。表中列出了这些任务及其相应模型的详细信息。我们为每项任务选择了广泛使用的网络架构,并在公开训练了这些模型。
达到效果:考虑到遥感ChatGPT可以通过基础模型等先进方法轻松扩展到更多任务,我们的实验重点关注ChatGPT是否正确规划了解释任务而不是解释精度。
我们使用4种不同的ChatGPT主干对遥感ChatGPT进行了测试。我们发现使用gpt-3.5-turbo的遥感ChatGPT在遥感任务规划中的性能最好,其次是gpt-4-1106-preview和gpt-4。94.9%的总体准确率证明了遥感ChatGPT在理解用户查询和规划遥感任务方面的能力。尽管gpt-3.5-turbo-1106支持更多令牌,但与gpt-3.5-turbo相比,它理解复杂指令的能力相当有限,从而导致模型性能下降。
进一步可视化了遥感ChatGPT的一些成功和失败案例。从成功的案例中我们可以看出,遥感ChatGPT不仅可以有效地规划和执行需要单个任务的简单查询,还可以有效地规划和执行需要迭代执行多个任务的复杂查询。然而,也有一些失败案例。主要失败案例之一是现有遥感模型的不支持类别。例如,遥感ChatGPT要求土地利用分类模型从输入图像中分割耕地,因为训练数据集不包含耕地类别。另一个失败案例表明,当现有工具或信息无法完全解决用户查询时,遥感ChatGPT倾向于想象答案而不是询问更多信息。
方法的未来工作及不足:遥感ChatGPT是一个LLM驱动的代理,利用ChatGPT连接各种基于人工智能的遥感模型来解决复杂的解释任务。通过耦合遥感基础模型和基于主体的模型,我们相信在不久的将来可以实现全自动遥感解译,从而为环境监测、灾害响应等多个领域的用户提供服务。由于遥感ChatGPT是一个初步尝试,更多的研究可以集中在开发开放词汇遥感基础模型或参数高效微调LLMs以获得更好的性能。
引文格式:提出了遥感ChatGPT,一个LLM驱动的代理,利用ChatGPT连接各种基于人工智能的遥感模型并解决复杂的解释任务。遥感ChatGPT可以理解用户的请求,规划遥感判读任务,并生成最终产品和对用户的响应。定量和定性评估表明,遥感ChatGPT可以进行精确的任务规划和执行。我们希望遥感ChatGPT是实现全自动遥感图像解译的一次有意义的尝试,并能推动致力于多领域应用的研究人员获得遥感解译技术。