ECCV 2024 | 首次基于深度聚类的多模态融合,双向结构对齐的融合网络新SOTA

ee4015519bfd9a8727558840d1c8b9b4.gif

©作者 | 刘久铭

单位 | 上海交大IRMV实验室

研究方向 | 点云配准、多模态融合

视觉 / 激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务,用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、控制导航等领域。最近,多模态里程计越来越受到关注,因为它可以利用不同模态的互补信息,并对非对称传感器退化具有很强的鲁棒性。

以往基于学习的方法大多采用图 1 a) 所示的特征级融合策略,无法捕捉细粒度像素到点的对应关系。最近,一些网络设计了点到图像的投影和局部特征聚合,如图 1 b) 所示,但其性能仍然受到稀疏激光雷达点和密集相机像素之间内在数据结构错位的限制。

为了解决这些问题,来自上海交通大学、加州伯克利大学的研究团队提出了一种具有双向结构对齐功能的新型局部到全局融合网络 (DVLO)。

86dde372ff798198a5e93b00ac740dc4.png

论文链接:

https://arxiv.org/pdf/2403.18274

代码链接:

https://github.com/IRMVLab/DVLO

DVLO 的融合模块由两部分组成:1)首先将图像视为一组伪点,与激光雷达点进行细粒度局部融合(图像到点的结构对齐)。2) 点云也通过圆柱投影转换为伪图像,用于全局自适应融合(点到图像结构对齐)。

f514bd6d1f08e067d80b68225b9cf2d8.png

▲ 图1. 图像和点云的不同融合策略。之前的大多数研究都只进行全局融合或局部融合。DVLO 设计了一种局部到全局的融合策略,既能促进全局信息的交互,又能保留局部的细粒度信息。此外,还设计了双向结构对齐,以最大限度地提高模态间的互补性。

总体而言,该论文的贡献如下:

1. 提出了一种具有双向结构对齐功能的局部到全局融合里程测量网络。论文作者将图像像素视为一组伪点进行聚类,以便与激光雷达点进行局部融合。点云也通过圆柱投影转换为伪图像,用于全局自适应融合。

2. 设计了一个纯粹基于聚类的融合模块,以获得细粒度的局部融合特征。论文中提出的方法是首次基于深度聚类的多模态融合尝试,是 CNN 和 Transformer 之外的另一种高效融合策略。

在 KITTI 里程计数据集上进行的大量实验表明,DVLO 的方法在大多数序列上都优于最近所有的深度激光雷达、视觉和视觉激光雷达融合里程计方法。此外,DVLO 的融合策略还能很好地应用于其他多模态任务,如场景流估计,甚至超过了最近的 SOTA 方法 CamLiRAFT。

19913772f23cb5c10dd804c727bade48.png

▲ 图2. DVLO 流程图

f08773659cbcfe402ebdce7754b4a355.png

方法

总体结构 

DVLO 的总体结构如图 2 所示。给定两个点云6635cd2c01b03443dc1bceba520550a4.png,及其对应的来自一对连续帧的单目相机图像27d4e0e9402a652c5f8b609048b2d3b9.png,里程计目标是估计两个帧之间的相对位姿,包括旋转四元数e46d58c7d12cb1d5f934ca0f1a169f0f.png和平移向量6562e6cbb36ab582bb2ff30ec3c99af3.png。  

8c14dd555195fdad762ffa393b317a46.png

▲ 图3. 研究团队设计的局部到全局(LoGo)融合模块

层次特征提取

点特征提取

由于原始点云的不规则性和稀疏性,首先将其投影到一个圆柱面 [30, 54] 上,以有序地组织点。其对应的二维位置为:

f45237efcc3f0d8c04c5777e62f81b4c.png

fa47c546f6918f45dbf4b663460e3df0.png

其中,x、y、z 是点云的原始三维坐标,u、v 是投影伪图像上相应的二维像素位置。∆θ 和 ∆ϕ 分别是激光雷达传感器的水平和垂直分辨率。

图像特征提取

给定摄像机图像177d68029e5ad9aacf93f50e6967b79c.png,利用 [17] 中基于卷积的特征金字塔提取图像特征c8fd17e64e741939586687c10a0e20ec.png。其中,7eec4c6407460d541beba54ea177a88d.jpeg5d8ad7cd0692907951eff5736a8f8872.png 是特征图的高度和宽度。C 是图像特征的通道数。

局部融合器模块 

从图像到伪点 

给定图像特征 8bf3a7cf6fde555a842e2961c739a589.png 后,首先将其重塑为伪点集合68a57a735dc1894b180bc24897381104.png,其中e3c2c55c4f9a2d9c46ac5d286ac478d7.png为伪点个数。在这种情况下,图像具有与激光雷达点相同的数据结构,这有利于建立局部像素与点的对应关系,并进一步进行基于聚类的特征聚合。

伪点聚类

首先将激光雷达点投影到图像平面上,得到其在图像坐标系中对应的二维坐标 x′ 和 y′,作为聚类中心。根据 x′、y′ 对 2dce411b7e622bfec74adedd7c91f9c0.png进行双线性插值,计算出中心特。

然后,根据中心特征0f286d1e3555b152f2ffacbcf3c49d8b.png和伪点特征 890a7c855e5bc9299545f03e92750c19.png的成对余弦相似度,将所有伪点划分为若干个聚类。在此,将每个伪点分配到最相似的聚类中心,从而得到 N 个聚类。为了提高效率,按照 Swin Transformer,在计算相似度时使用区域分割。

局部特征聚合

论文作者根据与聚类中心的相似度动态聚合同一聚类内的所有伪点特征。给定聚类包含第 i 个聚类中心以及周围的 k 个伪点,本地融合特征7ae9fdeb00aa26a24a9c3e95e599fe71.png的计算公式为:

4d2a90dbc6382e9c23e3e1518881a1cc.png

cb53a9660fa6d5e745423b48ccb486eb.png

全局融合模块

由于局部特征融合仅在划分的区域内进行,因此上述局部融合模块的感受野有限。为了扩大感受野以进行充分的特征融合,论文作者在局部融合特征239458bc2928d9c658638a9c4e62c8cf.png和点(伪图像)特征24c48ca1124efe863d571590c6c6f6a6.png之间引入了全局自适应融合机制。

从点到伪图像

通过前文中的圆柱投影将稀疏的激光雷达点转换为结构化的伪图像。在这种情况下,点特征 e38901e9877434958e43f8ccf229a633.png 的大小为52f96bb53253abe8909be5f54c8d129d.png。这一过程将原本稀疏的非结构化点重组为密集的结构化伪图像,从而实现了下面的密集特征图与图像特征的融合。

自适应融合

给定局部融合特征 475da9762923715a187bc138f5daef96.png和点特征0170883de1e6db7d307794f0e51bb556.png,按以下方式进行自适应全局融合:

3f2f384d11a325d0daf28f91017b188d.png

a193dfbd20d0bd35ec13b2cde4f7c20d.png

70ed3188ec7e870b68cf5e9398244539.png

其中,0fc229852c6b9ade151d9e987c4f9761.png 和50d6ea420e03e26c42a2368af5291a33.png是点(伪图像)特征和局部融合特征的自适应权重,由 sigmoid 函数和 MLP 层获得。⊙表示元素与元素之间的乘积。然后,将全局融合特征450eb9cb0b465e03c9cbad92fba65373.png重塑为 N ×D 的大小,作为迭代姿态估计的输入。

位姿迭代估计 

通过将最粗糙层中两个帧的全局融合特征124ab37efce24796a296777a9264c631.png67be630b496110d085285a59e33d5447.png联系起来,利用代价卷生成粗嵌入特征ca29f48ff975de7eed8f30e6aae4f21c.png。嵌入特征包含两个连续帧之间的相关信息。

然后,利用嵌入特征 E 上的加权嵌入掩码 M 来回归位姿变换。加权嵌入掩码 M 的计算公式为 :

47eae9d8026687a8d5f20af1f59a0f54.png

其中,4bab6523ecb549ed567854c6662d2dda.png是可学习的掩码。4477b2a81e41df2950d0c7ea07c878f4.png是源帧中的全局融合特征。然后,通过对嵌入特征和 FC 层加权,生成四元数3abeba9bedfd325d07995fc7e1166b14.png和平移向量53560a651ae96b3c45e5f6d9b67fe237.png

ee9b7864bc2f3120210caf1cf9e73ffa.png

5100bd4200b769d7736430c1a46cf555.png

在初始估计 q 和 t 之后,通过 PWCLO 中的迭代细化模块对它们进行细化,从而得到最终姿势。第 l 层的细化四元数0a4bf7ca0fe02979abc0e34d4b017786.png和平移矢量c6cbaef298532e1d93c173f8154dc8b4.png的计算公式为:

56514eaa724bdf56f604212197072ae2.png

5d2321690284877494f63419b550ff02.png

其中,姿态残差36a6683ce3ac302f9d0a1e553afa80f3.pngfc1c82548e36c0ac1823bc8faca822d9.png可根据论文中的公式在最粗糙层中通过类似过程获得。

损失函数 

四个层的网络输出 2ca8ee9066b3e46ef4ebd5820298d635.png 和 fc02f0e8dda629dc31e8bf4163530c88.png 将用于计算监督损失10d7fafb0a55dd9d98365ddc934c983e.png。第 l 层的训练损失函数为:

1650e04cf54cceae3e6d61b5a2ce3caa.png

其中,tgt 和 qgt 分别是地面真实平移和四元数。07968cb7279a2099e633b792be55f22d.pnga4cc013d5629e5837e32be14ffbee51e.png是可学习的标量,用于缩放损失。d1f47d2be4ca99b33533747bd73e7e55.png和 a8a0ee3a75d9b4686c246d1a03507f3e.png分别是 L1 和 L2 准则。那么,总训练损失为

b41605338b707ac91062ec693c034198.png

其中,L 是层的总数(设为 4),2f9794a74ccd10e365ac9b31a9b2fcf8.png是代表第 l 层权重的超参数。

3cbf403489989c53f94b8e737e015a7a.png

实验部分

75c0f5097583abed249d1977d21d9ba7.png

▲ 表1. 在KITTI里程计数据集上与不同里程计网络的比较

15ed0347e07aee6fbd4ddcaf1d53fa4a.png

▲ 表2. 在KITTI 00-10序列上与传统视觉-激光雷达里程计的比较

55e0634030d88358c793a0ec79eae3e3.png

▲ 表3. 在KITTI 09-10序列上与基于学习的多模态里程计的比较

e65ce0087eaf55bd5905680d1b5b09d5.png

▲ 表4. 不同多模态里程计在KITTI里程计数据集序列07-10上的平均推理时间

cfe4cea76f82e247097342b0d0eee12c.png

▲ 图4. 论文作者估计的位姿轨迹

70b704f48471dcfb7c7cc37f92c31872.png

▲ 图5. LOAM和DVLO在真实的KITTI序列07上的轨迹结果

dcbf138927cc57720057bc2913b357aa.png

▲ 图6. 设计的基于局部聚类的融合机制在某个聚类内的可视化效果。红点表示聚类中心的二维位置。黄色区域是每个中心周围的聚类像素。

da248934e2785d7d954f40ea3cd0569f.png

▲ 表5. 泛化到场景流估计任务

dd0ef8208af5a69a1fed0da9d88060f9.png

▲ 图7. 估计场景流的可视化

消融实验

4f6fa26cb55e4b63331372107d603229.png

▲ 表6. 局部 - 全局融合网络中局部融合器(LoF)和全局融合器(GoF)的有效性

324fe904fb1cac0dbc3f2944ee45e13e.png

▲ 表7. 不同局部融合策略的消融研究

更多研究细节,可参考原论文。

关于作者 / About Us

本文的主要作者来自上海交通大学智能机器人与机器视觉(IRMV)实验室。本文第一作者是实验室硕士生刘久铭,主要研究方向为点云配准,雷达里程计,多模态融合,nerf/3DGS 渲染,3D生成等。曾在CVPR,ICCV,ECCV,AAAI等会议发表论文多篇。 

本文通讯作者及指导教师为王贺升教授,教授团队近年来在计算机视觉与机器人权威期刊(TPAMI,TRO)与国际顶级学术会议(CVPR,ICCV,ECCV,AAAI,ICRA,IROS)上发表多篇机器人移动定位导航相关论文,与国内外知名高校,科研机构展开广泛合作。

更多阅读

8591df253cd79b2acee7b3b910a3f835.png

7f202ea9c41681240b01ed42d53e069b.png

2618bacb3b6a68398ee60cadd9afb6cc.png

1b51885d1d39ac0d4cf007d0caa7f5e3.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

e13e8945f558c3a184bd9d5aeef8067d.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

69ea536cddbe4f7a3fc3d70387ba5ba8.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值