遥感领域图文大模型综述论文笔记

本文链接：https://blog.csdn.net/qq_37261783/article/details/142380614

分享一篇介绍遥感图文多模态大模型的综述文章：《Towards Vision-Language Geo-Foundation Model: A Survey》。不过感觉这篇综述也基本可以当作是通用图文多模态的综述，因为遥感多模态大模型相关的技术和通用多模态的技术基本上一致，就是数据的构建上有一些区别。
一、引言
之前的遥感相关的研究基本上是设计特定模型和数据来解决特定的问题（大模型出来之前都是这样的），后面出现了一些遥感的视觉基础模型的工作：在大数据集上预训练，在特定数据集和任务上微调。但是这些基础模型缺少类似于人类的推理能力，大语言模型的出现使得模型具备了推理的能力，并且具有很强的泛化性，但是不具备视觉能力。结合llm和视觉模型的多模态模型，既可以具有较强的泛化性和推理能力，也可以处理图像相关的任务，收到了广泛追捧。
目前多模态的模型主要分为3种：1、对比式，以clip为代表，将图像和文本投影到同一个特征空间；2、对话式，以llava为代表，可以结合图片进行问答；3、生成式，以stable diffusion为代表，可以通过文字生成图像。
前面的引言就是图文多模态大模型的背景，没有多少遥感相关的东西，当成其它领域的图文大模型引言感觉也可以。

二、背景
在这里插入图片描述

遥感图文大模型的出现在llava和MiniGPT-4后面，基本上就是将通用的图文多模态大模型换成遥感的数据进行微调一下。几个比较有代表性的工作是：RemoteCLIP（基于遥感图片训练的clip模型，后续可以当作遥感图文大模型的视觉编码器）、RSGPT（主要贡献是提供了一个人工注释的、高质量遥感图文数据集）、RS5M（500万条遥感对话数据集）、DiffusionSat（遥感图像生成）、GeoChat（基于llava在遥感数据上进行微调，不仅支持整体场景描述，也支持针对特定区域对话，也可以定位特定的对象，这个工作同时也生成了一个新的遥感领域的多模态指令遵循数据集）。这些遥感图文大模型基本上都是数据有区别，模型结构并没有区别。
文章还介绍了一些常用的数据集和评估指标，这里就不说了，感兴趣的可以自己去看一下。
三、方法
作者认为遥感领域的图像和文本数据要远远小于cv领域，从头训练遥感大模型需要大量的时间和资源，并且不持续投入和改进的话很容易就被通用模型超越，因此遥感大模型应该将更多的精力放在数据工作上，而不是改变架构从头训练。
1、数据pipeline
遥感图文数据集目前主要分为两种，一种是从网上下载遥感图片，并利用网络数据或者手动标注的方法构建数据集（类似clip数据集的构建）；另一种是对现有数据集进行改造，将原始文字标注进行增强和扩展，修改成文字描述（类似llava数据集的构建）。
2、模型架构
架构这一块就和之前提到的一样，分为对比式（clip等）、对话式（llava等）和生成式（stable diffusion）。
这部分没什么可以说的，就是通用领域的多模态模型架构。
3、能力
文章将遥感多模态大模型的能力分成两个维度：感知和推理。感知又分为图像级感知、实例级感知和像素级感知。图像级感知与常见的图文大模型类似，对整张图片进行解读，可以进行图像描述、场景分类等。实例级感知属于更细粒度的感知，要求识别图像中的对象，例如数数图片中有几栋房子等，同时具有一定的视觉定位能力。像素级感知类似于图像语义分割，可以对图片的像素点进行分割，通常需要借助SAM等像素解码器的功能。
推理分为逻辑推理和属性推理。逻辑推理通过特定领域的知识完成推理，例如可以根据特定地形和标识可以识别特定的城市、国家等。属性推理是图像中不能直接观察到，需要结合一些传感器和物理知识进行推断，例如可以识别正在运动的物体、成像时的传感器高度、角度等信息。
4、挑战和展望
1、挑战
挑战主要是1、分辨率的问题；2、训练成本过高；3、基准测试覆盖不足；4、幻觉的问题。分辨率是遥感中比较重要的问题，低分辨率的图像难以包含一些细节的物体，例如小路、船只等，这就给图片的识别造成了困难。高分辨率的图像，进入模型的时候通常需要需要进行裁剪等操作，会丢失部分信息。
我个人认为遥感图文大模型最重要的就是解决分辨率的问题，最好用原生的分辨率进行训练，才能获得比较精确的信息。至于训练生成的问题，图文大模型训练成本已经不高了，llava只需要8卡A100就能训练，感觉这根本不是个问题，除非你要从头训练视觉编码器和语言模型。3和4都是通用图文大模型甚至是语言大模型存在的问题，评价指标刷的都很高，真到用的时候都是问题。指标上号称都赶上甚至超过GPT4，实际使用体验差距还是不小。
2、展望
更好的llm、更好的评价指标、降低训练成本的方法（例如cot）、更多的可解释行是未来的发展方向。
感觉这个展望比较废话，没有针对遥感提出什么内容。
5、总结
这里的总结是我个人的总结，不是论文作者的总结。感觉这篇综述完全可以当作通用图文大模型的综述来看，并没有针对遥感领域提出什么新的东西。个人认为，遥感领域的图文大模型，应该将更多的精力放在如何更好的处理整张图片（不要裁剪）和如何解析图片的细节，因为通常遥感图片的分辨率都比较高，并且一般不存在一个主体区域，裁剪的话有很大概率裁掉需要的信息。并且，遥感图片通常每个元素占据的部分都比较小，每个重要的元素基本上都在细节里面，所以我认为遥感领域的图文大模型相较于通用大模型应该更好的支持原生分辨率和细节解读能力。