AAAI 2025 | 定位地球上的一切!遥感开放词汇目标检测

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

图片

题目:Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community

会议:39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)

论文:https://arxiv.org/abs/2408.09110

项目:https://jaychempan.github.io/LAE-website/

代码:https://github.com/jaychempan/LAE-DINO

年份:2025

单位:清华大学,浙江工业大学,中国科学院大学,苏黎世联邦理工大学等

5eea967467bcf39e31655b2cfde6760f.png

创新点

数据引擎构建:面对当前遥感领域目标检测标注类别稀缺,开发了LAE-Label Engine,用于收集、自动标注和统一多达10个遥感数据集,为提供遥感基础模型提供可扩展数据基础。

数据集构建:构建了LAE-1M数据集。LAE-1M是首个大规模遥感目标检测数据集,涵盖了广泛的类别,包含100万个标注实例。

模型设计:当前多模态大模型对定位能力不准确,提出了LAE-DINO模型,这是针对遥感领域的大规模开放词汇目标检测器。

2f4340d93a95dd5e54a6114da437af16.png    

LAE-Label 数据引擎

LAE-Label Engine旨在解决遥感领域缺乏多样化、大规模标注数据的问题。LAE-Label Engine 的主要任务是通过半自动化的方式,构建一个大规模的遥感目标检测数据集 LAE-1M,该数据集包含100万个标注实例。

ee7e2dc8356e479bf03484d1f30df8aa.png

lLAE-FOD 数据集构建

LAE-FOD 数据集是通过对现有的标注遥感数据集进行处理和统一构建的。具体步骤如下:

1)图像切片:由于遥感图像通常分辨率较高,LAE-Label Engine 首先对这些高分辨率图像进行切片处理,将其分割为适合模型训练的小尺寸图像。

2)格式对齐:不同数据集的标注格式可能不同,LAE-Label Engine 将这些标注格式统一为 COCO 格式,便于后续处理。

3)采样:为了确保数据集的多样性和平衡性,LAE-Label Engine 对每个类别的实例进行随机采样,避免某些类别的实例过多或过少。

lLAE-COD 数据集构建

LAE-COD 数据集是通过半自动化的方式构建的,主要利用了大模型(如SAM 和 LVLM)进行自动标注。具体步骤如下:

1)SAM(Segment Anything Model):首先,LAE-Label Engine 使用 SAM 模型从遥感图像中提取感兴趣区域(RoI)。SAM 能够根据点或框提示精确地分割出物体的边缘,但无法识别具体的类别。

2)LVLM(Large Vision-Language Model):接着,LAE-Label Engine 使用 LVLM(本实验主要基于开源的书生多模态大模型InternVL)对SAM 提取的 RoI 进行类别标注。LVLM 能够根据图像内容生成可能的物体类别,并提供类别的置信度。

3)规则过滤:最后,LAE-Label Engine 通过规则过滤去除无效或低质量的标注。例如,去除单调的图像、低置信度的类别标注等。         

LAE-1M 数据集

LAE-1M 数据集涵盖了广泛的类别,包含100万个标注实例。以下是 LAE-1M 数据集的具体内容:

数据集的具体内容

1) LAE-FOD 数据集:包含来自多个现有遥感数据集的标注实例,如 DOTA、DIOR、FAIR1M、NWPU VHR-10、RSOD、Xview、HRSC2016 和 Condensing-Tower 等。这些数据集经过图像切片、格式对齐和随机采样处理后,形成了 LAE-FOD 数据集。         

    

2)LAE-COD 数据集:包含通过 SAM 和 LVLM 自动标注的实例,主要来自 AID、NWPU-RESISC45、SLM 和 EMS 等数据集。这些数据集经过 SAM 提取 RoI、LVLM 进行类别标注和规则过滤后,形成了 LAE-COD 数据集。

数据集的特点

1)大规模:LAE-1M 数据集包含100万个标注实例,是迄今为止最大且类别覆盖最广的遥感目标检测数据集。

2)多样性:LAE-1M 数据集涵盖了广泛的类别,包括飞机、船舶、车辆、建筑物、道路、机场、港口等,能够为模型提供丰富的训练数据。

3)半自动化结合:LAE-1M 数据集通过自动化(SAM 和 LVLM)和半自动化(规则过滤)的标注方式构建,能够在保证标注质量的同时,大幅减少人工标注的工作量。

LAE-DINO开放词汇检测器

总体框架

19f7a8a5c1351c774a0d4c761a438bf7.png

LAE-DINO引入了两个新模块:

1)动态词汇构建(Dynamic Vocabulary Construction, DVC):动态地为每个训练批次选择正负词汇,解决了大规模词汇集带来的训练效率问题。

2)视觉引导的文本提示学习(Visual-Guided Text Prompt Learning, VisGT):通过将视觉特征映射到语义空间,增强文本特征,从而更好地利用图像和文本之间的关系进行目标检测。

动态词汇构建(DVC)

传统的开放词汇目标检测模型通常使用固定长度的文本编码器(如 BERT 或 CLIP),将所有类别词汇拼接成一个超长文本序列。然而,当词汇集规模较大时(如1600个类别),这种方法会导致计算效率低下,甚至超出文本编码器的最大长度限制。         

1)动态词汇长度:DVC 设置一个动态词汇长度65cbfeae26ae8baec86f5849439cb1ff.png(如60),每个训练批次只选择部分正负词汇进行训练。

2)正负词汇选择:对于每个训练批次,DVC首先选择当前批次中的所有正类别词汇,然后从剩余的词汇集中随机选择负类别词汇,直到达到的设定的长度。         

优势:DVC 显著减少了文本编码器的计算负担,同时保留了模型对大规模词汇集的适应能力。

视觉引导的文本提示学习(VisGT)    

遥感图像中的场景通常非常复杂,单一的文本提示难以充分表达图像中的语义信息。传统的开放词汇目标检测模型主要依赖文本提示来引导视觉特征,但在复杂场景中,文本提示的稀疏性和局限性可能导致检测效果不佳。

1)场景特征提取:VisGT 首先通过平均所有正类别文本特征,生成“场景特征”(Scene Feature)。场景特征代表了图像中所有物体的整体语义信息。         

2)视觉特征映射:VisGT 使用多尺度可变形自注意力(MDSA)模块,将视觉特征映射到语义空间,生成视觉引导的文本特征。

3)模态对齐:VisGT 将视觉引导的文本特征与原始文本特征结合,输入到 Transformer 编码器中,增强图像和文本之间的模态对齐。

VisGT 使用对比损失(Contrastive Loss)来监督视觉特征到语义空间的映射过程。具体来说,对比损失用于最小化预测的场景特征与真实场景特征之间的差异。

实验设置

在多个遥感基准数据集(如DIOR、DOTAv2.0)和新构建的含有80类的LAE-80C基准上进行了广泛的实验,验证了LAE-1M数据集和LAE-DINO模型的有效性。

1)开放集检测:LAE-DINO 在开放集检测任务中显著优于现有的开放词汇目标检测方法(如 GLIP 和 GroundingDINO)。

e0494907b4e8981912bca7120e2a8c6e.png

2)封闭集检测:LAE-DINO 在封闭集检测任务中也表现出色,尤其是在少量数据微调的情况下,仍能取得优异的检测效果。

37d442f0ef4f066db8f41fc571068efe.png

应用前景

该研究为地球科学应用(如环境监测、自然灾害评估、土地利用规划等)提供了强大的工具,推动了遥感领域开放词汇目标检测的发展。

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
### 关于2025AAAI会议中的异常检测研究主题和议程 通常情况下,国际人工智能协会(AAAI)每年都会在其年度会议上讨论最新的研究成果和技术进展。对于特定领域如异常检测,在2025年的AAAI会议中预计会涉及多个方面。 #### 异常检测技术的发展趋势 近年来,随着机器学习特别是深度学习的进步,异常检测方法也得到了显著改进。这些进步不仅体现在算法性能上,还包括处理复杂数据结构的能力以及跨域应用的可能性[^1]。 #### 主要议题可能包括但不限于: - **基于自监督学习的异常检测模型** 探讨如何利用未标记的数据来训练更加鲁棒且泛化能力强的异常识别系统。 - **多模态融合下的异常事件预测** 结合图像、视频流和其他传感器输入等多种类型的感知信息来进行更精准的事物状态评估与预警分析。 - **实时在线更新机制设计** 针对动态变化环境的特点,研究能够快速适应新情况并保持高效运行时间表现的方法论框架。 - **解释性和透明度提升策略** 构建既具备高精度又易于理解其决策过程的人工智能解决方案,从而增强用户信任感和支持力度。 ```python # 示例代码展示了一个简单的异常检测函数实现方式 def detect_anomalies(data_series, threshold=3): mean = data_series.mean() std_dev = data_series.std() anomalies = [] for value in data_series: z_score = (value - mean) / std_dev if abs(z_score) > threshold: anomalies.append(value) return anomalies ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值