CVPRW'24 | SAM用于遥感影像中提取向量化的道路网络

作者 | ZeyX  编辑 | 遥感与深度学习

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心技术交流群

本文只做学术分享,如有侵权,联系删文

论文介绍

题目:Segment Anything Model for Road Network Graph Extraction

会议:CVPR 2024 2nd Workshop on Scene Graphs and Graph Representation Learning

论文:http://arxiv.org/abs/2403.16051

代码:https://github.com/htcr/sam_road

年份:2024

该篇由论文原作者审核

注:2024年的CVPR 遥感相关文章持续关注中,合集可见:CVPR2024合集

c218d921faeec32ff2b53ef07f339c18.png

创新点

  • SAM-Road 模型:发挥了SAM模型的能力,结合了语义分割和图神经网络。模型可以直接预测图的顶点和边,无需复杂的后处理启发式方法。

  • 图形几何和拓扑预测:使用密集语义分割来预测图形的几何结构,并使用轻量级的基于Transformer的图神经网络来预测拓扑结构,从而实现准确和快速的预测。

  • 效率和速度:在城市数据集上的处理速度比现有最先进的方法快 40 倍,同时不牺牲准确性,能够在几秒钟内构建跨越数平方公里的完整道路网络图。

b7cfc66e5e3b55d0c6a2b521cf3e24ff.png

数据

City-scale 数据集

  • 数据集包含来自美国20个城市的180张卫星图像,其中29张图像用于测试。每张图像2048×2048像素,分辨率为1m,覆盖较大的城市区域。

  • https://arxiv.org/abs/2007.09547

SpaceNet 数据集

  • 数据集包含2549张卫星图像,其中382张图像用于测试,这些图像来自全球多个城市,如上海、拉斯维加斯等。每张图像400×400像素,分辨率为1m。

  • https://arxiv.org/abs/1807.01232

方法

总体结构

SAM-Road 模型采用了一种新的方法来提取和构建大规模的矢量化道路网络图。SAM-Road 模型核心结构包括:基于预训练的 Segment Anything Model (SAM) 的图像编码器,几何解码器,以及基于Transformer的拓扑解码器。

83a49471601251a5a51872718345ccd3.png

图像编码器(Image Encoder)

图像编码器基于预训练的 Segment Anything Model(SAM),具体采用了 ViT-B 架构。这一架构适用于高分辨率图像,能够将输入的 RGB 卫星图像转换为特征映射,这些特征映射后续将用于道路和交叉点的几何及拓扑预测。在训练阶段,整个图像编码器会以较低的学习率进行微调。

几何解码器(Geometry Decoder)

几何解码器的任务是预测每个像素点的存在概率,即该点是否属于道路或交叉点。这一步骤是通过密集的语义分割来实现的,利用 SAM 的强大语义分割能力,几何解码器能够生成高质量的概率掩膜图。掩膜图中的每个像素值表示该位置存在道路的概率。然后,使用简单的非最大抑制(NMS)方法从这些概率掩膜中提取出图的顶点。

f83b2f6668f8689ed29f6ffd5a046319.png

拓扑解码器(Topology Decoder)

拓扑解码器采用了基于Transformer的图神经网络架构,其主要功能是基于几何解码器提供的顶点,预测这些顶点之间是否存在连接(即图的边)。对于每个顶点,拓扑解码器考虑其周围一定半径内的邻近顶点,并基于顶点的相对位置和图像上下文预测它们之间的连接概率。这一预测是作为一个二分类问题处理的,每个顶点对的连接概率由一个 sigmoid 层输出。

734ea3072530819e0ee64cf11293d44e.png

标签生成和滑动窗口预测

标签生成:在训练阶段,使用地面真实的道路网络图来生成训练用的掩膜和拓扑标签。这包括将真实的道路网络渲染为掩膜图,并根据网络的连接情况生成拓扑标签。

滑动窗口预测:为了处理大区域的图像,SAM-Road 采用了滑动窗口的预测方式。模型在重叠的窗口上独立预测局部图结构,然后将这些局部预测融合成全局图。这种方法允许模型以并行方式快速处理大范围的图像,并在准确性和速度之间做出灵活的权衡。

e7ef29d6ed2cfd6d8053e6536c083273.png

精度

评价指标

  • TOPO 

    TOPO 是一种专为道路网络图设计的评估指标。它通过在地面真实图中随机抽样候选顶点,然后在预测图中找到对应的顶点,比较从同一顶点出发在两个图中可达的子图的相似性。这种比较关注于几何精度,并对不正确的断开(即断开本应连接的顶点)给予重罚。TOPO 主要评估的是局部图结构的相似度,通过精度(Precision)、召回率(Recall)和 F1 分数来评估。

  • APLS (Average Path Length Similarity)

    APLS 是另一个评估道路网络图拓扑正确性的指标。它计算地面真实图中随机顶点对之间的最短路径长度与预测图中对应顶点对之间的最短路径长度的相似度。如果两个图中顶点对之间的路径长度接近,则表明拓扑正确性高。APLS 主要衡量的是图的长程拓扑和几何结构的相似性,较小的路径长度差异表示高的拓扑相似度。

与现有方法的对比

精度对比

c9388f5834d502651e50669bf99a385c.png

速度对比

25fddc98071660beb31a79aa22d8649a.png

滑动窗口参数设置对精度和速度的影响

cc3277789c892bbe56ba645bd08e27b2.png

对比示意图

900791798d643f1c0cd959fb0b7fa19b.png

消融实验

消融实验讨论了预训练SAM的使用、Transformer的使用、顶点偏移、预测交叉点等部分的影响。

24d3dee3a81f4fdb69256c9ccd460732.png

c10aba39302f96ff7a2657b4e3267679.png

一些提取错误

ea00cc67ee9f240d17f68d7b4f759e01.png

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

e3e17bfb0cfc9d8e1efe0ecd8bc7cd88.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

6abf98df7c7c092492b8a2076c5e68a0.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

7f0af19995a1dc1eb70bf172ea9a2a67.jpeg

④【自动驾驶之心】全平台矩阵

6610e19b5f1a7ed2c82429e99d2f325b.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值