CVPR 2025 | 突破2D局限!Change3D:从3D视频建模视角重塑遥感变化检测和描述任务

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【遥感】投稿交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

图片

论文:https://arxiv.org/pdf/2503.18803

项目:https://zhuduowang.github.io/Change3D

代码:https://github.com/zhuduowang/Change3D

单位:武汉大学, 香港大学, 字节跳动   

核心创新点

◆三维时空建模范式

首个视频理解视角统一双时相影像分析任务,通过Change3D框架实现时空特征联合建模,突破传统二维方法的表征局限;

◆ 高效化动态感知

基于可学习感知帧实现高效特征挖掘,摒弃复杂模块设计,仅通过时序建模即完成变化区域高精度提取;

◆ 多维度性能突破

在遥感影像变化检测/描述等4类任务、8大评测基准中,以约6%-13%参数量(相较于当前最优算法)实现全面性能领先。

研究背景

遥感变化检测与描述技术通过分析双时相影像实现地表动态监测,在灾害预警、国土监管等领域具有重要价值。当前主流方案多采用三阶段流程(如图1 (a)):

◆独立特征编码:基于孪生网络分别提取双时相影像空间特征;

◆差异特征构建:通过注意力机制等设计捕捉双时相特征关联性;

◆多任务解码:通过独立解码器生成变化图或描述文本。    

图1 传统范式 vs. 本研究提出的范式

技术瓶颈解析:

◆任务耦合性弱:独立编码器难以针对性学习变化敏感特征,参数分配失衡(图像编码器约占用80%参数)导致特征学习效率低下;

◆架构通用性差:变化检测与描述任务需分别设计变化提取模块,制约统一框架构建。

图2 不同模型的参数分布对比

创新方案:

受视频建模技术能够有效建模帧间关联的启发,本研究提出Change3D时空联合建模框架(如图1(b)):

◆时序特征重构:将双时相影像与可学习感知帧沿时间维度拼接,构建三维时空序列;

◆动态差异感知:通过视频编码器联合建模时空特征,使感知帧自主捕获跨时相变化信息;

◆统一特征解码:基于感知帧特征同步生成高精度变化图与描述文本。              

方法

为验证Change3D框架的多任务适配性,本研究将其应用于遥感影像变化检测与描述任务。如图3所示,其核心流程包括:

l感知帧初始化:根据任务数量(检测/描述)动态生成对应数量的可学习感知帧;

l时空输入构建:将双时相影像与感知帧沿时间维度堆叠,形成三维视频帧序列输入;

l感知特征学习:通过视频编码器实现感知帧与双时相影像的跨帧交互,提取任务导向的感知特征;

l多模态输出解码:基于感知帧特征,分别通过检测解码器(生成变化掩膜)和描述解码器(生成自然语言描述)输出结果。          

图3 统一多任务的Change3D模型架构          

性能突破

定量结果:

本研究系统地评估了Change3D模型在多种遥感影像变化检测和描述任务上的性能,如表1-4所示,涵盖二值变化检测、语义变化检测、建筑物损毁评估和变化描述任务。与最先进的方法相比,本研究提出的方法所需的参数减少至6%-13%,计算量减少至8%-34%,并且拥有最快的推理速度,同时在所有评测基准上均取得了优越的性能。

定性结果:

图4可视化结果表明:

(1)Change3D通过双时相交互直接感知变化信息,无需独立提取模块,而传统方法需依赖额外模块设计;

(2)相对于现有的方法,Change3D在特征提取阶段能够有效地聚焦变化区域,实现变化检测与描述任务的高效优化。    

图4 双时相特征及变化特征的可视化结果。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值