首个！大幅面高清卫星影像场景图生成数据集

最新推荐文章于 2024-11-08 13:51:09 发布

Amusi（CVer）

最新推荐文章于 2024-11-08 13:51:09 发布

阅读量230

点赞数

文章标签：人工智能目标跟踪计算机视觉机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247603877&idx=4&sn=1b1ecdf9c64b2702531cdf8e143ad45c&chksm=f8e156399d99ff41217253dad762ad7ad2eee1398960ecd295523955e0066feb92aee0b8e6c2&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba和遥感】交流群

添加微信号：CVer111，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

作者：yangxue

https://zhuanlan.zhihu.com/p/704536129

可用于HBB/OBB目标检测、目标对剪枝和关系预测三大任务

一、前言

卫星影像(SAI)中的场景图生成(SGG)有助于促进对地理空间场景从感知到认知的智能理解。在SAI中，地理目标的尺度和纵横比变化大，地理目标之间（甚至是空间不相交的地理目标之间）存在丰富的关系，这使得在大幅面超高分辨率卫星影像中进行整体的SGG成为必要。然而，大幅面超高分辨率卫星影像的SGG数据集的缺乏限制了SGG在SAI中的进展。由于大幅面超高分辨率卫星影像的复杂性，挖掘目标-关系三元组<目标1,关系,目标2>严重依赖于远程上下文推理。因此，传统为小幅面自然图像设计的SGG模型不能直接适用于大幅面卫星影像。

为了解决数据集稀缺问题，构建了首个面向大幅面超高分卫星影像的大规模场景图生成数据集（命名为ST），影像幅面从512 × 768到27,860 × 31,096像素，包含超过210,000个地理目标和超过400,000个<目标1,关系,目标2>三元组。
为了实现大幅面超高分卫星影像的场景图生成，我们提出了一个基于上下文感知的逐级认知(CAC)框架，从三个层面深入理解卫星影像：目标检测、目标对剪枝和关系预测。
为了促进大幅面超高分辨率卫星影像中SGG的发展，我们发布了面向大幅面超高分辨率卫星影像的SGG工具包（其中包含约30种目标检测方法和10种场景图生成方法），并基于STAR数据集进行了的全面基准测试。
面向大幅面超高分辨率卫星影像的STAR数据集和工具包：https://linlin-dev.github.io/project/STAR

大幅面超高分卫星影像中的SGG示意图，其中第一行分别展示了大幅面超高分卫星影像的目标检测和场景图生成结果，第二行为对应的局部细节展示。在第二行末尾图中，黑色箭头表示仅依赖于孤立目标对可预测的关系，而红色箭头表示需要借助上下文推断的复杂关系。

二、STAR数据集

为了解决面向大幅面影像的SGG数据集数据稀缺问题，我们构建了首个面向大幅面超高分卫星影像的大规模场景图生成数据集（命名为STAR），包含超过210,000个地理目标和超过400,000个目标-关系三元组。

与现有目标检测和场景图生成数据集的比较（仅限包含空间分辨率GSD小于1m）

STAR收集了空间分辨率为0.15m ~ 1m范围的卫星影像，涵盖了全球范围内与人类活动密切相关的11类复杂地理空间情景（如机场、港口、核电站、火电站、风力发电站、水坝和服务区、立交桥、水面桥、施工工地和体育运动场景等）。
在遥感领域专家的指导下，将所有地理目标划分为48个细粒度类，并使用有向边界框(OBB)进行精确标注，所有关系按照8个大类、58个细粒度类进行标注。
所有目标对及其包含的关系都是一对多标注，所有关系类型都具有绝对性，即不受影像旋转的影响。

STAR数据集中影像采样的地理分布和示例

STAR数据集中目标分布(a)和关系分布(b)统计

目标和关系之间的交互映射

OBB目标标注示例

关系标注示例

三、基于上下文感知的逐级认知(CAC)框架

从目标检测、目标对剪枝和关系预测三个层面深入理解卫星影像，具体来说：

目标检测：提出了“能够灵活集成多尺度上下文的整体多类目标检测网络(HOD-Net)”检测大幅面超高分辨率卫星影像中的目标；
目标对剪枝：设计了“基于对抗生成的候选对生成(PPG)网络”来筛选包含高价值关系的目标对；
关系预测：提出了“带有上下文感知消息传递(RPCM)的关系预测网络”来预测候选对的关系类型。

基于上下文感知的逐级认知(CAC)框架

四、目标检测

基于水平框（HBB）和有向框（OBB）的检测器在STAR测试集上做了大量基准实验

1. b_b为boarding_bridge，l_t表示lattice_tower，s_l为ship_lock，g_d为gravity_dam。2. 所有实验都基于标准的“1x”(12epoch)训练策略。3. †表示主干网络为Swin-L，其他的主干网络都为ResNet50。4. 下划线表示后续行的基础检测器

不同训练策略在STAR测试集上的实验结果

不同目标检测策略STAR数据集中的可视化

OBB检测代码：https://github.com/yangxue0827/STAR-MMRotate

HBB检测代码：https://github.com/Zhuzi24/STAR-MMDetection

五、目标对剪枝

不同剪枝策略在STAR测试集上的实验结果

不同剪枝策略STAR数据集中的可视化

六、场景图生成

不同SGG模型在STAR测试集上的基线结果

不同SGG模型在STAR数据集中的结果可视化

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、遥感交流群成立

扫描下方二维码，或者添加微信号：CVer111，即可添加CVer小助手微信，便可申请加入CVer-Mamba、遥感微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、遥感+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer111，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看