AAAI 2025 | 定位地球上的一切！遥感开放词汇目标检测

最新推荐文章于 2025-06-29 10:08:22 发布

Amusi（CVer）

最新推荐文章于 2025-06-29 10:08:22 发布

阅读量559

点赞数

CC 4.0 BY-SA版权

文章标签：目标检测目标跟踪人工智能计算机视觉机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247616418&idx=3&sn=8ecf94a321dcec276069d42c77a188c4&chksm=f8d465130b8e90ca8af47ff09328c8b9d5ce4aa8549699bb5b72b6fc34d13c66d9d411e1e353&scene=126&sessionid=0

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

题目：Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community

会议：39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)

论文：https://arxiv.org/abs/2408.09110

项目：https://jaychempan.github.io/LAE-website/

代码：https://github.com/jaychempan/LAE-DINO

年份：2025

单位：清华大学，浙江工业大学，中国科学院大学，苏黎世联邦理工大学等

创新点

数据引擎构建：面对当前遥感领域目标检测标注类别稀缺，开发了LAE-Label Engine，用于收集、自动标注和统一多达10个遥感数据集，为提供遥感基础模型提供可扩展数据基础。

数据集构建：构建了LAE-1M数据集。LAE-1M是首个大规模遥感目标检测数据集，涵盖了广泛的类别，包含100万个标注实例。

模型设计：当前多模态大模型对定位能力不准确，提出了LAE-DINO模型，这是针对遥感领域的大规模开放词汇目标检测器。

LAE-Label 数据引擎

LAE-Label Engine旨在解决遥感领域缺乏多样化、大规模标注数据的问题。LAE-Label Engine 的主要任务是通过半自动化的方式，构建一个大规模的遥感目标检测数据集 LAE-1M，该数据集包含100万个标注实例。

lLAE-FOD 数据集构建

LAE-FOD 数据集是通过对现有的标注遥感数据集进行处理和统一构建的。具体步骤如下：

1）图像切片：由于遥感图像通常分辨率较高，LAE-Label Engine 首先对这些高分辨率图像进行切片处理，将其分割为适合模型训练的小尺寸图像。

2）格式对齐：不同数据集的标注格式可能不同，LAE-Label Engine 将这些标注格式统一为 COCO 格式，便于后续处理。

3）采样：为了确保数据集的多样性和平衡性，LAE-Label Engine 对每个类别的实例进行随机采样，避免某些类别的实例过多或过少。

lLAE-COD 数据集构建

LAE-COD 数据集是通过半自动化的方式构建的，主要利用了大模型（如SAM 和 LVLM）进行自动标注。具体步骤如下：

1）SAM（Segment Anything Model）：首先，LAE-Label Engine 使用 SAM 模型从遥感图像中提取感兴趣区域（RoI）。SAM 能够根据点或框提示精确地分割出物体的边缘，但无法识别具体的类别。

2）LVLM（Large Vision-Language Model）：接着，LAE-Label Engine 使用 LVLM（本实验主要基于开源的书生多模态大模型InternVL）对SAM 提取的 RoI 进行类别标注。LVLM 能够根据图像内容生成可能的物体类别，并提供类别的置信度。

3）规则过滤：最后，LAE-Label Engine 通过规则过滤去除无效或低质量的标注。例如，去除单调的图像、低置信度的类别标注等。

LAE-1M 数据集

LAE-1M 数据集涵盖了广泛的类别，包含100万个标注实例。以下是 LAE-1M 数据集的具体内容：

数据集的具体内容

1) LAE-FOD 数据集：包含来自多个现有遥感数据集的标注实例，如 DOTA、DIOR、FAIR1M、NWPU VHR-10、RSOD、Xview、HRSC2016 和 Condensing-Tower 等。这些数据集经过图像切片、格式对齐和随机采样处理后，形成了 LAE-FOD 数据集。

2)LAE-COD 数据集：包含通过 SAM 和 LVLM 自动标注的实例，主要来自 AID、NWPU-RESISC45、SLM 和 EMS 等数据集。这些数据集经过 SAM 提取 RoI、LVLM 进行类别标注和规则过滤后，形成了 LAE-COD 数据集。

数据集的特点

1)大规模：LAE-1M 数据集包含100万个标注实例，是迄今为止最大且类别覆盖最广的遥感目标检测数据集。

2)多样性：LAE-1M 数据集涵盖了广泛的类别，包括飞机、船舶、车辆、建筑物、道路、机场、港口等，能够为模型提供丰富的训练数据。

3)半自动化结合：LAE-1M 数据集通过自动化（SAM 和 LVLM）和半自动化（规则过滤）的标注方式构建，能够在保证标注质量的同时，大幅减少人工标注的工作量。

LAE-DINO开放词汇检测器

总体框架

LAE-DINO引入了两个新模块：

1）动态词汇构建（Dynamic Vocabulary Construction, DVC）：动态地为每个训练批次选择正负词汇，解决了大规模词汇集带来的训练效率问题。

2）视觉引导的文本提示学习（Visual-Guided Text Prompt Learning, VisGT）：通过将视觉特征映射到语义空间，增强文本特征，从而更好地利用图像和文本之间的关系进行目标检测。

动态词汇构建（DVC）

传统的开放词汇目标检测模型通常使用固定长度的文本编码器（如 BERT 或 CLIP），将所有类别词汇拼接成一个超长文本序列。然而，当词汇集规模较大时（如1600个类别），这种方法会导致计算效率低下，甚至超出文本编码器的最大长度限制。

1）动态词汇长度：DVC 设置一个动态词汇长度（如60），每个训练批次只选择部分正负词汇进行训练。

2）正负词汇选择：对于每个训练批次，DVC首先选择当前批次中的所有正类别词汇，然后从剩余的词汇集中随机选择负类别词汇，直到达到的设定的长度。

优势：DVC 显著减少了文本编码器的计算负担，同时保留了模型对大规模词汇集的适应能力。

视觉引导的文本提示学习（VisGT）

遥感图像中的场景通常非常复杂，单一的文本提示难以充分表达图像中的语义信息。传统的开放词汇目标检测模型主要依赖文本提示来引导视觉特征，但在复杂场景中，文本提示的稀疏性和局限性可能导致检测效果不佳。

1）场景特征提取：VisGT 首先通过平均所有正类别文本特征，生成“场景特征”（Scene Feature）。场景特征代表了图像中所有物体的整体语义信息。

2）视觉特征映射：VisGT 使用多尺度可变形自注意力（MDSA）模块，将视觉特征映射到语义空间，生成视觉引导的文本特征。

3）模态对齐：VisGT 将视觉引导的文本特征与原始文本特征结合，输入到 Transformer 编码器中，增强图像和文本之间的模态对齐。

VisGT 使用对比损失（Contrastive Loss）来监督视觉特征到语义空间的映射过程。具体来说，对比损失用于最小化预测的场景特征与真实场景特征之间的差异。

实验设置

在多个遥感基准数据集（如DIOR、DOTAv2.0）和新构建的含有80类的LAE-80C基准上进行了广泛的实验，验证了LAE-1M数据集和LAE-DINO模型的有效性。

1）开放集检测：LAE-DINO 在开放集检测任务中显著优于现有的开放词汇目标检测方法（如 GLIP 和 GroundingDINO）。

2）封闭集检测：LAE-DINO 在封闭集检测任务中也表现出色，尤其是在少量数据微调的情况下，仍能取得优异的检测效果。

应用前景

该研究为地球科学应用（如环境监测、自然灾害评估、土地利用规划等）提供了强大的工具，推动了遥感领域开放词汇目标检测的发展。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看