点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
题目:Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community
会议:39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)
论文:https://arxiv.org/abs/2408.09110
项目:https://jaychempan.github.io/LAE-website/
代码:https://github.com/jaychempan/LAE-DINO
年份:2025
单位:清华大学,浙江工业大学,中国科学院大学,苏黎世联邦理工大学等
创新点
数据引擎构建:面对当前遥感领域目标检测标注类别稀缺,开发了LAE-Label Engine,用于收集、自动标注和统一多达10个遥感数据集,为提供遥感基础模型提供可扩展数据基础。
数据集构建:构建了LAE-1M数据集。LAE-1M是首个大规模遥感目标检测数据集,涵盖了广泛的类别,包含100万个标注实例。
模型设计:当前多模态大模型对定位能力不准确,提出了LAE-DINO模型,这是针对遥感领域的大规模开放词汇目标检测器。
LAE-Label 数据引擎
LAE-Label Engine旨在解决遥感领域缺乏多样化、大规模标注数据的问题。LAE-Label Engine 的主要任务是通过半自动化的方式,构建一个大规模的遥感目标检测数据集 LAE-1M,该数据集包含100万个标注实例。
lLAE-FOD 数据集构建
LAE-FOD 数据集是通过对现有的标注遥感数据集进行处理和统一构建的。具体步骤如下:
1)图像切片:由于遥感图像通常分辨率较高,LAE-Label Engine 首先对这些高分辨率图像进行切片处理,将其分割为适合模型训练的小尺寸图像。
2)格式对齐:不同数据集的标注格式可能不同,LAE-Label Engine 将这些标注格式统一为 COCO 格式,便于后续处理。
3)采样:为了确保数据集的多样性和平衡性,LAE-Label Engine 对每个类别的实例进行随机采样,避免某些类别的实例过多或过少。
lLAE-COD 数据集构建
LAE-COD 数据集是通过半自动化的方式构建的,主要利用了大模型(如SAM 和 LVLM)进行自动标注。具体步骤如下:
1)SAM(Segment Anything Model):首先,LAE-Label Engine 使用 SAM 模型从遥感图像中提取感兴趣区域(RoI)。SAM 能够根据点或框提示精确地分割出物体的边缘,但无法识别具体的类别。
2)LVLM(Large Vision-Language Model):接着,LAE-Label Engine 使用 LVLM(本实验主要基于开源的书生多模态大模型InternVL)对SAM 提取的 RoI 进行类别标注。LVLM 能够根据图像内容生成可能的物体类别,并提供类别的置信度。
3)规则过滤:最后,LAE-Label Engine 通过规则过滤去除无效或低质量的标注。例如,去除单调的图像、低置信度的类别标注等。
LAE-1M 数据集
LAE-1M 数据集涵盖了广泛的类别,包含100万个标注实例。以下是 LAE-1M 数据集的具体内容:
数据集的具体内容
1) LAE-FOD 数据集:包含来自多个现有遥感数据集的标注实例,如 DOTA、DIOR、FAIR1M、NWPU VHR-10、RSOD、Xview、HRSC2016 和 Condensing-Tower 等。这些数据集经过图像切片、格式对齐和随机采样处理后,形成了 LAE-FOD 数据集。
2)LAE-COD 数据集:包含通过 SAM 和 LVLM 自动标注的实例,主要来自 AID、NWPU-RESISC45、SLM 和 EMS 等数据集。这些数据集经过 SAM 提取 RoI、LVLM 进行类别标注和规则过滤后,形成了 LAE-COD 数据集。
数据集的特点
1)大规模:LAE-1M 数据集包含100万个标注实例,是迄今为止最大且类别覆盖最广的遥感目标检测数据集。
2)多样性:LAE-1M 数据集涵盖了广泛的类别,包括飞机、船舶、车辆、建筑物、道路、机场、港口等,能够为模型提供丰富的训练数据。
3)半自动化结合:LAE-1M 数据集通过自动化(SAM 和 LVLM)和半自动化(规则过滤)的标注方式构建,能够在保证标注质量的同时,大幅减少人工标注的工作量。
LAE-DINO开放词汇检测器
总体框架
LAE-DINO引入了两个新模块:
1)动态词汇构建(Dynamic Vocabulary Construction, DVC):动态地为每个训练批次选择正负词汇,解决了大规模词汇集带来的训练效率问题。
2)视觉引导的文本提示学习(Visual-Guided Text Prompt Learning, VisGT):通过将视觉特征映射到语义空间,增强文本特征,从而更好地利用图像和文本之间的关系进行目标检测。
动态词汇构建(DVC)
传统的开放词汇目标检测模型通常使用固定长度的文本编码器(如 BERT 或 CLIP),将所有类别词汇拼接成一个超长文本序列。然而,当词汇集规模较大时(如1600个类别),这种方法会导致计算效率低下,甚至超出文本编码器的最大长度限制。
1)动态词汇长度:DVC 设置一个动态词汇长度(如60),每个训练批次只选择部分正负词汇进行训练。
2)正负词汇选择:对于每个训练批次,DVC首先选择当前批次中的所有正类别词汇,然后从剩余的词汇集中随机选择负类别词汇,直到达到的设定的长度。
优势:DVC 显著减少了文本编码器的计算负担,同时保留了模型对大规模词汇集的适应能力。
视觉引导的文本提示学习(VisGT)
遥感图像中的场景通常非常复杂,单一的文本提示难以充分表达图像中的语义信息。传统的开放词汇目标检测模型主要依赖文本提示来引导视觉特征,但在复杂场景中,文本提示的稀疏性和局限性可能导致检测效果不佳。
1)场景特征提取:VisGT 首先通过平均所有正类别文本特征,生成“场景特征”(Scene Feature)。场景特征代表了图像中所有物体的整体语义信息。
2)视觉特征映射:VisGT 使用多尺度可变形自注意力(MDSA)模块,将视觉特征映射到语义空间,生成视觉引导的文本特征。
3)模态对齐:VisGT 将视觉引导的文本特征与原始文本特征结合,输入到 Transformer 编码器中,增强图像和文本之间的模态对齐。
VisGT 使用对比损失(Contrastive Loss)来监督视觉特征到语义空间的映射过程。具体来说,对比损失用于最小化预测的场景特征与真实场景特征之间的差异。
实验设置
在多个遥感基准数据集(如DIOR、DOTAv2.0)和新构建的含有80类的LAE-80C基准上进行了广泛的实验,验证了LAE-1M数据集和LAE-DINO模型的有效性。
1)开放集检测:LAE-DINO 在开放集检测任务中显著优于现有的开放词汇目标检测方法(如 GLIP 和 GroundingDINO)。
2)封闭集检测:LAE-DINO 在封闭集检测任务中也表现出色,尤其是在少量数据微调的情况下,仍能取得优异的检测效果。
应用前景
该研究为地球科学应用(如环境监测、自然灾害评估、土地利用规划等)提供了强大的工具,推动了遥感领域开放词汇目标检测的发展。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看