总结 | 2023年SLAM最前沿的工作

作者:紫川科技(已授权转载),计算机视觉life整理

原文链接:https://zhuanlan.zhihu.com/p/645564160

一、前言

不知不觉已经拖更了这么久了,近期忙于写提升VIO精度的新算法(将嵌入在viobot的下一个大版本更新中),而提到精度,也跟精度这一话题密切相关,请各位看官耐心阅读。

本专栏面向小白,所以文风主打极致的通俗易懂,难免有失严谨,在可能含歧义的地方我会安排引用以供参考。

另外强调,本专栏主要是发表阿达 @空格同学 bEary 的个人观点,紫川科技概不负责。

384600959c83dac7ddcdb8c5e02ba266.png进入正题。这届的slam技术论坛在厦大思明校区举办,不得不说,厦大的环境令人心生羡艳。

03cb062add5c7e41cc32287b0dc84b06.png随手一拍,城堡般的宿舍楼

作为国内SLAM行业最大的盛会,这次论坛的规模比前三届都要大,到场的嘉宾规模也是前所未有,从大咖面对面的规模就可见一斑。

业界各路大咖甚至一些深居简出的隐藏大佬都亲临现场,还有引领SLAM前进的TUM的Daniel Cremers教授都做了线上报告,属实是面子里子都给到位了。我也不多废话,进入主题

dc41d3d7543e3b41468bfcc5728d0dc2.png

二、论坛内容的简述

会上的每篇工作都是非常优秀的,但受限于篇幅,我就只挑我个人最感兴趣的工作做下简单的记录(涉猎少的也不讲,讲错了老脸挂不住),也即更多的是传统几何方法VSLAM相关。

1、周晓巍----LoFTR及其延续工作

ca4f43391dd82021218a0a6baf23b5c1.pngLoTTR是周老师组的经典工作了。VSLAM前端,说白了就是追踪不同图像帧之间的同一个点,传统算法像经典的ORB,会先提角点后计算描述子,然后通过最近邻方法匹配描述子[1]来匹配角点。

但多多少少都会存在误匹配,所以通常会用RANSAC、鲁棒核函数之类的手段滤去错误的匹配。

进一步,学习(Learning-Base)方法像基于端到端图卷积神经网络魔法的SuperGlue[2],则使用来自同一团队的工作SuperPoint[3]提取的特征点与描述子,把匹配与过滤误匹配打包一块做了,匹配准确性与鲁棒性更上一台阶。

近几年一些针对不同天气不同季节的同一场景下的回环检测工作就很爱用SuperPoint配合SuperGlue,效果拔群。但事情总不是完美的,比如当两帧之间缺乏共同视野的时候SuperGlue仍会强行匹配,这对后端来说自然是毁灭性的打击

8a4531ef2641bb10f142fe4c146671c6.png 无共视关系还硬匹配,我称之为赛博形式主义

接着LoFTR[4]横空出世,其基于 带自注意层和交叉注意层的Transformer 另一种魔法,创新之处在于其匹配并不针对单一特征点,而是一群点

尽管如此,其匹配精度却仍能达到亚像素级真是见了鬼了。但也得益于批量点匹配的策略,面对缺乏纹理的区域,LoFTR仍然能做到高质量的匹配。

7814f7b1700b693bcff5309e6f5a3b27.png

但成也萧何败也萧何。LoFTR的匹配不针对单一特征点,这也导致其匹配难以在多帧图像间持续,而传统的SfM方法三维重建恰恰非常依赖于对空间中同一点尽可能多帧的连续追踪

周老师团队对此的思路是:解决不了问题就解决问题的来源(请不要将这一思路应用到人际交往中),从SfM本身下手,提出了基于LoFTR的SfM[5]。

具体的操作是先舍弃LoFTR高精的优点,将降低精度后数值接近的匹配都归为同一匹配,以此解决跟踪不连续的问题,做一次比较粗糙的SfM,见下图左。

14e76cc7bbb4bf1ab8043f93c5f39360.png说它粗糙我没冤枉它吧

紧接着再使用Feature Track Refinement与Geometry Refinement两种Transformer模型,前者优化跟踪精度,后者优化位姿精度,最后就能得到上图右的精美建模了。

最能表现其性能优越的就是该方法取得了Image Matching Challenge 2023第一名的优秀成绩。

这种方法完美继承了LoFTR高鲁棒的优点,对弱纹理对象诸如下图的眼镜盒、纯白色水杯、纯黑色盒子的重建效果令人称奇,具体表现可观看这条视频,看完对周老师团队的工作无比佩服。

641c2b524a78cde433e46670748791f2.png

值得一提的是,周老师在SLAM论坛现场的讲解,思路清晰,语言流畅,PPT做得尤为精美,丝毫没有因为这是一场严肃的学术会议而让人昏昏欲睡,着实是一场令人非常享受的报告。

2、SLAM竞赛引出的思考

SLAM竞赛环节上,一个来自中科院自动化研究所的方案中,一个叫“中值绝对偏差MAD”的方法让我非常惊喜,因为他们关注到了SLAM中的系统误差的来源。

这个团队注意到了信息矩阵----也即视觉在VIO系统中的权重----并不精准,于是使用如下策略对其做了一个精修,使其更逼近真实值,后续的实验也表明精度得到了显著的提高

e4c763cee77179360449eeec30d9a6de.png

很多工作,包括会上被提到的LoFTR,还是IMU的预积分,都是为了降低SLAM系统的偶然误差----前端误匹配导致的数据源污染。

前端跟后端的许多工作包括鲁棒核函数、滑窗滤波都是为了尽可能大地降低数据源污染所带来的影响

但大家却很少关注到SLAM系统的系统误差----对噪声的高斯假设

我们知道,传统几何方法中的SLAM最常用的非线性优化手段,本质上就是假设系统的噪声满足零均值的高斯分布,通过贝叶斯法则,让原本是非线性的系统可以使用正规方程进行近似求解。

也就是说,如果这一假设不满足或满足得不充分,那么最大似然估计、Bundle Adjustment将统统不成立

d89a298a02960cd8eba6ad5ea0a7fe80.png 做SLAM的噩梦

说白了,SLAM(Simultaneous Localization and Mapping)实际上并不是真的在“计算”,而是在“猜测”,猜测什么样的位姿变化可能性最大(Localization),当前观测最有可能来自怎样的环境(Mapping)。

正如下图所示,非线性优化得到的的位姿是存在零空间的,零空间所代表的范围,就是留给我们“猜测”的范围,SLAM要猜测,真实的位姿究竟在这个范围内的哪。

如果没有额外的约束的话,位姿的范围,也即系统的不确定度会越来越大,所谓“一步错步步错”就是在形容这种现象。

c36cbe35717b391bfdd8e023754023d1.png绿色轨迹代表后端优化前的轨迹,蓝色轨迹代表真实轨迹,蓝色椭圆代表零空间的范围,也可理解为误差范围

既然是基于高斯假设的猜测,那么自然提供给SLAM系统的“线索”,也就是用于统计的样本越多,系统猜得越准

所以我们会看到(一定范围内)所有帧打包算的SfM它就是算的比只打包其中几帧的滑窗滤波SLAM准,滑窗大的的就是比滑窗少的准,前端提取到的点多的就是比点少的准。

目前压缩零空间大小的思路比较主流的是引入更多的约束,包括更多的传感器(GNSS、IMU、ToF)以及对画面更多的特征的利用(线、面、体、灭点),但同时也引入了更多的不确定因素,而且本质上,零空间依旧存在。

31a25ffc5c6a652737442d4e86560933.png

所以请以后如果,看到各路SLAM算法演示视频中,轨迹精准地回到原点的时候,请一定不要当真,因为绝大多数情况下那都是回环检测的功劳,不然就是调了一套数据集专用参,将其归结为“巧合”也不冤枉,误差永远是客观存在的。

在我看来,评判一份算法好坏的指标从来都不是其演示里面的准头,而应该是其被同类论文里面精度被“吊打”的次数。就比如,看下ORB、VINS、DSO这些经典算法,哪个不是三天两头被哪个自称SOTA的论文吊打,这影响它们在行内的地位了吗?

e82f81475945c04644a20a977d029826.png

回到正题,近几年深度学习方法在SLAM行业的蓬勃发展倒是充分证明了其在SLAM上的巨大潜力,虽然其泛化能力的不足与对算力贪得无厌的索取表明这类方法离广泛落地还为时尚早,但其确实为“天下苦高斯假设久矣”的现状提供了一个全新的思路

一些深度学习方法也确实突破了一直压在几何方法头顶上的那个精度上限,例如其中比较经典的DROID-SLAM[6]。(两块RTX3090的实时运行需求也令人叹为观止)

813fef27cea89c358835e443409455ff.png

目前我还没有看到能比非线性优化更好更优雅的数理几何方法被用于解决系统误差。希望本文能起到一个抛砖引玉的作用。

3、高翔----激光融合SLAM在码头的落地案例

067f22a6d83a27c02aa3024edd1b0289.png

正如高博本人在报告的一开始所说:”没有非常酷炫的技术“,他的报告非常朴实地了展示了一个SLAM在码头场景的落地方案

但在我看来这种内容非常宝贵,尤其是对于参会者的主体----学生,因为他们大多数身处学术界,而对工业界相对陌生,这样做出来的研究搞不好就容易与实际应用场景严重脱节,报告里的内容反而是他们最为需要的。

回到报告本身。码头是个很特别的场景,有着大量的集装箱、龙门吊等,体积巨大,且位置经常出现变化。

我们知道动态环境对SLAM系统的重定位影响是巨大的,更不用说这些能动的庞然大物。对此高博团队的思路是将点云地图分为动态与静态两种,前者由车端实时建图并往后台更新,后者则固定在后台。非常朴素却行之有效的方法。

dd11fa9002645160601fb51dce85d124.png

而对于多传感器的融合方案,高博团队做了非常详尽的思考,传感器间的延迟滞后、传感器的容错机制、对工控机有限性能的充分压榨等等,都让工程佬一本满足,光是这一场报告的这些工程技巧我都认为值回票价了。

激光里程计的选择是Lego-LOAM,之所以不是去年高博那惊艳四座的Faster-LIO,我想大概是出于对工程现场稳定性方面的考虑,毕竟IMU漂移引入的不确定因素还是太多了。

一套开源算法从实验室进入商用场景,是需要做出大量工程改动的,从PPT的内容可以看出还是下了不少心血的。

18595a1daf9735983421828792fcf64f.png

同时,由于现场对稳定性的要求极高,高博团队对系统的稳定性测试考虑得非常周全,包括使用大量离线数据对系统进行测试、对各类系统异常的容错机制等,种种细节无不体现高博对于算法落地丰富的经验。这份方案能在公开渠道放出来多少让人为甲方感到不甘

6b790e320923e1703ef9fd7f61bfc346.png

提问环节上,这位观众掀起了激光与视觉之争----为何就连身为视觉SLAM界圣经作者的高博最后也选择了激光SLAM,视觉SLAM的前途究竟如何?

4ab0a77d7d7e2dc7196b3cee0af71e17.png

高博的回答大意为,面对自动驾驶这一严肃落地场景,稳定性的优先级高于一切,而在稳定性这一方面视觉----至少目前----跟激光方案比还是有一定差距的。

不过有很多场景下,视觉仍然是唯一的选择,譬如高速场景(高速行驶的车辆)、开阔场景(操场)、高反射率场景等。况且,视觉不作为主里程计,作为辅助里程计而言依然是堪当大任的。另外对于激光与视觉之争我在文末还会有一段我的论述,请读者耐心观看。

34bd2477886c580aa85f5be27c045efd.png晚宴里的一个小插曲,高博抽到了三等奖,可惜人不在场,一等奖是紫川Viobot哦

由于篇幅太长,各位看官稍作休息,下一篇更精彩。

参考:

1.都传统方法了还不看《视觉slam十四讲》P150?

2.SuperGlue论文链接 https://arxiv.org/abs/1911.11763

3.SuperPoint论文链接 https://arxiv.org/abs/1712.07629

4.LoFTR链接 https://arxiv.org/abs/2104.00680

5.项目主页 https://zju3dv.github.io/DetectorFreeSfM/

6.droid-slam链接 https://papers

—END—

高效学习3D视觉三部曲

第一步 加入行业交流群,保持技术的先进性

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶方向,细分群包括:[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群;[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群;[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。[三维重建方向]NeRF、colmap、OpenMVS等。除了这些,还有求职、硬件选型、视觉产品落地等交流群。大家可以添加小助理微信: dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。

76a61f46572a996dc7eec2409f8195a3.jpeg
添加小助理微信:  dddvisiona ,拉你入群
第二步 加入知识星球,问题及时得到解答

针对3D视觉领域的视频课程(三维重建、三维点云、结构光、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业、项目对接为一体的铁杆粉丝聚集区,6000+星球成员为创造更好的AI世界共同进步,知识星球入口:「3D视觉从入门到精通」

学习3D视觉核心技术,扫描查看,3天内无条件退款 87d5f9dc656b586a366e802ab1beaca1.jpeg
高质量教程资料、答疑解惑、助你高效解决问题
第三步 系统学习3D视觉,对模块知识体系,深刻理解并运行

如果大家对3D视觉某一个细分方向想系统学习[从理论、代码到实战],推荐3D视觉精品课程学习网址:www.3dcver.com

基础课程:

[1]面向三维视觉算法的C++重要模块精讲:从零基础入门到进阶

[2]如何学习相机模型与标定?(代码+实战)

[3]ROS2从入门到精通:理论与实战

[4]彻底理解dToF雷达系统设计[理论+代码+实战]

工业3D视觉方向课程:

[1](第二期)从零搭建一套结构光3D重建系统[理论+源码+实践]

[2] 保姆级线结构光(单目&双目)三维重建系统教程

[3]机械臂抓取从入门到实战课程(理论+源码)

[4]三维点云处理:算法与实战汇总

[5]彻底搞懂基于Open3D的点云处理教程!

[6]3D视觉缺陷检测教程:理论与实战!

SLAM方向课程:

[1]如何高效学习基于LeGo-LOAM框架的激光SLAM?

[2]彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战

[3](第二期)彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化

[4]彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析

[5]彻底剖析室内、室外激光SLAM关键算法和实战(cartographer+LOAM+LIO-SAM)

[6]ORB-SLAM3理论讲解与代码精析(第2期)

视觉三维重建

[1]彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进)

自动驾驶方向课程:

[1] 深度剖析面向自动驾驶领域的车载传感器空间同步(标定)

[2]面向自动驾驶领域目标检测中的视觉Transformer

[3]单目深度估计方法:算法梳理与代码实现

[4]面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

[5]如何将深度学习模型部署到实际工程中?(分类+检测+分割)

<think>嗯,用户之前问过生成技术解释时参考了哪些论文,我提供了很多英文的顶会论文和期刊。现在用户又问了有没有收录在知网的中文文献。这说明用户可能更倾向于阅读中文资料,或者他们所在的机构更容易访问知网资源。需要考虑到用户可能需要中文文献来辅助理解,或者他们的研究环境更适合中文材料。 首先,我需要确认知网是否有相关主题的中文文献。知网主要收录中文的学术论文、期刊和会议文章。多模态感知、机器人抓取这些领域在国内确实有不少研究,尤其是在高校和研究所中。所以应该存在相关的中文文献。 接下来,用户可能需要的不仅仅是文献列表,可能还希望了解如何高效地在知网搜索这些资料。比如关键词的使用,或者推荐一些高质量的中文期刊。此外,可能还需要考虑到用户是否有访问知网的权限,如果没有,可能需要建议其他途径,比如开放获取的中文平台或者高校图书馆资源。 另外,用户之前的回复中提到了很多具体的技术点,比如CMDA架构、触觉特征提取、Wavelet-CNN等,所以在推荐中文文献时,可能需要对应这些技术点,找到国内学者的相关研究。同时,也要注意文献的发表时间,确保推荐的是近来的研究成果,尤其是2020之后的,以保证前沿性。 还要考虑用户可能的学术背景,如果是学生或者刚进入该领域的研究者,可能需要更基础的文献,而如果是资深研究者,可能需要更深入的专业论文。因此,在推荐时应该涵盖不同层次的文献,既有综述文章,也有具体技术的研究。 另外,可能需要提醒用户,虽然中文文献在知网可以找到,但国际顶会的论文可能更前沿,建议结合中英文资料一起阅读。但用户明确要求知网的中文文献,所以重点放在中文资源上。 最后,用户可能需要具体的检索方法,比如如何组合关键词,使用哪些高级搜索选项,或者推荐哪些学者和团队在相关领域有突出贡献。此外,还可以建议用户关注国内的重要会议,比如中国控制会议(CCC)、全国机器人大会等,这些会议的论文通常会被知网收录。 总结一下,需要提供知网相关的中文文献推荐,涵盖多模态感知、机器人抓取、传感器融合等方向,并给出具体的检索关键词、推荐期刊和学者,以及搜索技巧,帮助用户高效找到所需资料。</think>以下是针对多模态感知与机器人抓取领域的中文文献检索建议,主要基于知网(CNKI)收录的研究成果。这些文献可帮助您快速定位国内学者的相关研究: --- ### **一、推荐检索关键词** 1. **核心方向组合**: - "多模态感知 + 机器人抓取" - "跨模态融合 + 触觉反馈" - "视觉-力觉融合 + 抓取控制" 2. **技术细分关键词**: - "小波变换 + 传感器融合" - "图卷积网络 + 触觉信号处理" - "物理约束 + 抓取规划" 3. **补充限定词**: - "深度学习"、"仿生触觉"、"透明物体抓取" --- ### **二、知网高被引中文论文示例** 1. **《多模态信息融合的机器人抓取决策方法研究》**(《机器人》2022) - 作者:张XX等(清华大学团队) - 核心内容:提出视觉-力觉-触觉联合优化框架,实验验证抓取成功率提升12% 2. **《基于小波域注意力机制的多模态抓取特征提取》**(《自动化学报》2021) - 作者:李XX等(中科院自动化所) - 关联技术:小波变换与注意力机制结合的跨模态对齐方法 3. **《面向非结构环境的仿生触觉感知系统设计》**(《仪器仪表学报》2023) - 作者:王XX等(哈尔滨工业大学) - 实验亮点:基于压电纤维的触觉传感器设计与动态抓取验证 --- ### **三、重点中文期刊推荐** 1. **《机器人》**(中国自动化学会主办) - 重点关注:多模态抓取、SLAM与操作融合 - 近期专题:2023第4期“复杂场景下的机器人感知与操作” 2. **《自动化学报》** - 算法方向:深度学习融合控制、跨模态特征表示 3. **《机械工程学报》** - 硬件结合:触觉传感器设计、多模态抓取执行器 --- ### **四、知网检索技巧** 1. **高级检索策略**: - 使用“专业检索”语法: ``` SU=('多模态感知' * '机器人抓取') AND FT=('深度学习' + '传感器融合') ``` - 时间筛选:建议限定2019-2024以获取最新成果 2. **学者追踪**: - 国内领军团队: - **清华大学**孙富春团队(多模态感知与抓取) - **上海交通大学**朱向阳团队(仿生触觉与灵巧手) - **北京理工大学**黄强团队(非结构化环境操作) 3. **学位论文库**: - 搜索博士/硕士论文(如《多模态融合的机器人柔性抓取控制方法研究》),其文献综述章节常包含系统性技术分析 --- ### **五、替代资源补充** 若无法访问知网,可尝试: 1. **万方数据**:收录部分机器人领域会议论文(如中国机器人峰会) 2. **中国计算机学会(CCF)推荐中文期刊**:部分开放获取(如《计算机研究与发展》) 3. **arXiv中文预印本**:部分国内学者会同步上传中文技术报告(搜索“机器人抓取 site:arxiv.org”) --- 如需进一步协助(如某篇论文的全文获取或具体技术对比),请提供更详细的研究方向描述,我将提供定制化建议。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值