关注公众号,发现CV技术之美
本文为粉丝投稿。
本文将为大家介绍Change-Agent: Towards Interactive Comprehensive Change Interpretation and Analysis from Change Detection and Change Captioning
(遥感变化智能体:从变化检测和变化描述迈向可交互的全面变化解译与分析),数据集和代码即将开源。
Title:Change-Agent: Towards Interactive Comprehensive Change Interpretation
paper: https://arxiv.org/abs/2403.19646
Data&Code: https://github.com/Chen-Yang-Liu/Change-Agent
01导读
监测地球表面变化对于理解自然过程和人类影响至关重要,需要精确和全面的解释方法。遥感卫星图像提供了监测这些变化的独特视角,使得遥感图像变化解释(RSICI)成为一个重要的研究焦点。当前的RSICI技术包括变化检测和变化描述生成,每种技术都有其在提供全面解释方面的局限性。
为解决这个问题,本文提出了一个可交互式的Change-Agent,将多层次变化解释(MCI)模型作为眼睛,大型语言模型(LLM)作为大脑进行整合。Change-Agent可以根据用户的指令进行全面的变化解释和深入的分析,如变化检测和变化描述生成、变化对象计数、变化原因分析等。
本文提出的MCI模型包含像素级变化检测和语义级变化描述生成两个分支,其中多个BI-temporal Iterative Interaction(BI3)层利用局部感知增强(LPE)和全局差异融合注意(GDFA)模块增强了模型的判别特征表示能力。为训练MCI模型,本文构建了LEVIR-MCI数据集,其中包含了双时相图像以及对应的多样化变化掩膜和语句描述。
实验表明了所提出的MCI模型的有效性,并突出了Change-Agent在促进地表变化的全面和智能解释方面的潜力。
02引言
地球表面的变化作为地球系统的动态指标,深刻影响着地球的演化和人类的生存。遥感(RS)卫星图像提供了独特的“上帝视角”,成为监测地球动态变化的有效工具,遥感图像变化解释(RSICI)旨在识别和分析在同一地理区域不同时间捕捉到的图像中的变化。
当前的RSICI技术主要包括变化检测和变化描述。变化检测准确定位了像素级(Pixel level)的变化的空间位置。而变化描述旨在使用自然语言表达变化的属性和含义,强调对变化的语义级理解(Semantic level)。尽管这两个领域都取得了显著的进展,但它们各自的局限性阻碍了通过单一技术获得全面的变化解释信息。
具体来说,虽然变化检测可以准确地定位变化区域,但它缺乏对变化潜在含义的深入理解,例如地面物体的特征或它们之间的空间关系。相反,变化描述可以提供丰富的语义级别解释信息,但在提供精确的像素级别变化定位方面可能存在不足。因此,迫切需要探索一种多层次变化解释(MCI, Multi-level Change Interpretation)方法来实现精确的变化定位,又可深入挖掘变化的本质和含义。
此外,实际应用通常需要对像素级和语义级变化解释结果进行全面分析和进一步处理,以满足特定需求。例如,用户可能需要对变化对象数量进行统计分析,这需要研究人员投入大量时间和精力,并要求用户具备技术能力。
为解决这些挑战,本文提出了交互式Change-Agent,以MCI模型作为“眼睛”,大型语言模型(LLM)作为“大脑”的。下图展示了Change-Agent相比之前技术所取得的进步。与以往的单一技术不同,Change-Agent具有交互能力,用户能够就地表变化提出需求。利用MCI模型和LLM,Change-Agent能够根据用户需求智能分析和处理获得全面的变化解释信息。此外,本文提出了一个多级变化解译数据集LEVIR-MCI 为MCI模型训练提供数据基础。
本文的主要贡献总结如下:
建立了一个多层次变化解释数据集。该数据集包含双时序图像以及多样化的变化检测掩码和描述性语句。它为探索多任务学习提供了关键的数据基础,用于变化检测和变化字幕。
提出了一个双分支的MCI模型,可以提供像素级和语义级的变化解释。此外,我们提出了具有LPE和GDFA的BI3层,以增强模型的变化解释能力。实验证实了我们方法的有效性。
构建了一个基于MCI模型和LLM的Change-Agent,实现了对地表变化的交互式和全面的解释和分析。它具有智能对话和定制服务能力,为智能遥感应用开辟了新的机遇。
03数据集
Dataset Overview
所提出的LEVIR-MCI数据集是先前的变化描述数据集LEVIR-CC的扩展。本文进一步为每对双时序图像提供了额外的变化检测mask,突出显示了变化的道路和建筑物。LEVIR-MCI数据集为每对图像提供了来自不同解释角度的多样化注释,进一步增强了用于全面变化解释的实用性。图2展示了一些数据集中的例子。
Change Object Mask
数据集包含了超过40,000个变化道路和建筑物的标注实例。虽然变化道路的数量比建筑物少,但通常呈现出更长的跨度和更大的覆盖区域。
通过对道路和建筑区域以及相应的矩形边界框进行分析,本文对物体的尺度和形变进行了深入的研究,如图3所示。点的分散程度提供了关于对象尺度和形变多样性的见解。
值得注意的是,道路点呈现出相对较广的光谱和分散多样性,这归因于它们狭窄且弯曲的特性。相比之下,建筑物点显示出更集中的分布,反映了它们主要是矩形形状的特点。
04方法
图4中展示了Change-Agent的概览。其利用MCI模型作为眼睛,LLM作为大脑。MCI模型使Change-Agent能够全面感知视觉变化,作为Change-Agent的变化感知基础。LLM可以利用其丰富的内在知识来实现代理调度,并提供深入的分析和决策支持。
Multi-level Change Interpretation Model
MCI模型是Change-Agent的核心组件,负责从双时相遥感图像中解译变化信息。所提出的LEVIR-MCI数据集为训练MCI模型奠定了基础。MCI模型采用了一个共享底部的双分支架构,专注于两个关键任务:变化检测和变化描述。
具体而言,孪生主干网络从双时相图像中提取多尺度的视觉特征用于两个分支的学习。较低层次的特征提供了详细信息,而较高层次的特征则丰富了语义信息。变化检测分支利用多尺度特征来优化变化掩码的预测,而变化字幕分支则利用最高级别的视觉特征生成描述性语句。
通过多任务学习,本文训练了一个强大的MCI模型,能够同时生成变化检测掩码和变化描述。
Bi-temporal Iterative Interaction Layer
在变化检测和变化描述分支中,本文提出了一种新颖的BI-temporal Iterative Interaction(BI3)层,以有效增强和融合双时序特征。BI3层的结构如图5所示。BI3层利用局部感知增强(LPE)模块和全局差异融合注意(GDFA)模块提取感兴趣的判别特征。
关于变化检测和变化描述分支详细结构可参看原论文
LLM: Brain of Change-Agent
本文利用LLM负责协调我们的Change-Agent的调度。如下图所示,LLM根据用户指令精心规划任务执行。尽管在文本相关任务上表现出色,但LLM缺乏固有的视觉感知能力。
为了弥合这一差距,并实现类似于人类能力的变化解释和分析,本文为Change-Agent提供了一套Python工具,包括视觉特征提取主干、变化检测分支、变化描述分支以及相关的Python库。
利用这些工具,LLM自主地构建Python程序,随后调用Python解释器执行以完成超出其固有能力范围的任务,例如对象计数、图像处理、变化原因估计、未来变化预测等功能。
05实验
Multi-level Change Interpretation Performance
目前缺乏同时解决变化检测和变化字幕的方法。为评估MCI模型在处理这两个任务时的效果,本文在提出的数据集上与各自领域的已建立方法进行了性能对比。实验证实了本文提出的MCI模型在变化检测和变化描述任务上的联合解译能力的优越性。
Result
06结论
本文通过开发一种新颖的Change-Agent,解决了对地球表面变化进行全面和智能解释的迫切需求。该智能体由MCI模型和LLM驱动,具有强大的视觉变化感知能力和熟练的任务调度能力。MCI模型由变化检测和变化描述两个分支组成,可提供像素级别的变化掩码和语义级别的变化描述。
在双分支框架内,本文设计了一个具有LPE和GDFA的BI3层,以增强模型的判别特征表征能力。此外,本文构建了一个包含多样化的变化检测掩码和描述的数据集以支持模型训练。实验证实了所提出的MCI模型的有效性,并强调了Change-Agent在促进地表变化的全面和智能解释方面的潜力。
欢迎加入「遥感」交流群👇备注:遥感