从建图王者到幕后标定:一个15年SLAM老兵眼中的行业消亡史

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

2025年还要不要入门SLAM

问:已经2025年,我到底还要不要入门SLAM?

答:尽量不要

SLAM近年的发展历程

从高精度惯导、天文导航(视觉定位)、组合导航到激光SLAM/视觉SLAM/4D mmw SLAM,做了15+年,强烈建议在入门之前,问问自己是否真要继续深入,是否还有其他选择。以下是一个slamer的视角观察到近年的发展历程:

  • 2017~2019年:SLAM+CNN感知的高光时刻,ORB-SLAM、VINS-mono、VINS-fusion、open vins、LIO_SAM、fast-lio、LVIO等经典算法大面积应用于实践;

  • 2020~2022年:语义SLAM部分成熟,结合经典SLAM算法,在众包建图和泊车SLAM中落地,可以部分解决对高精地图的依赖,算是SLAM最后的荣光;

  • 2023年:全面进入BEV、OCC,以MapTR为代表的无图算法标致着两段式算法进入量产计划表,SLAM退出舞台中央做起了幕后(标定、4D真值等),虽然实时定位还需要,但毕竟不是当红花旦了;

  • 2024年:开始端到端,大模型开始demo,基于transformer的显式建图或隐式建图直接输出至下游,剩下的定位部分,一个组合导航几乎解决了绝大多数问题,停车场/内部路还需要一部分SLAM,但已经很少了。SLAM变成了一个投入巨大还很难有(zhao)所(dao)建(gong)树(zuo)的方向。

SLAM如何入门:算法+工程

SLAM是一个对算法能力和工程能力要求都很高的方向,算法能力可以参考“数学学不好,demo跑到老”,工程能力涉及C++、ROS等,下面是一些入门思路。

A. 算法部分

了解-温故-理解-运用,不要被数学吓到,不会就跳过,“为什么这么做”比“怎么做”更重要。

  • 数学基础:空间坐标、线性变换,搞清楚V_n = R_b2n * V_b,顺带理解姿态矩阵R_b2n的四元数/欧拉角/李群李代数表示,理解小角度情况下他们之间的近似关系,这部分数学比较多,不会推导也没关系,重在理解和应用,随着工程中遇到的问题越来越多,对它们的理解会越来越多,尤其是发现李群李代数在忽略二阶小量后和四元数轴角、欧拉角、反对称矩阵的关系后,这块就变得没那么难了,无非就是对旋转的几种不同表达和运输法则(类似加减乘除);

  • 视觉基础:相机模型、2d-2d(五点法、八点法、BA优化)、三角化、3d-2d(PnP)、3d-3d(ICP)、直接法与半直接法。视觉SLAM使用图像做运动估计(位姿求解),需要搞清楚什么场景下用什么办法,这也就是前人为什么会总结出有上面这些视觉位姿估计算法,例如:初始化使用SfM,这里用2d-2d是不得已,因为图像上只有一个uv组成的2d点,匹配之后通过2d-2d计算R|t,然后三角化得到3d landmarker,之后用已经三角化的landmarker与图像上的2d点做3d-2d的重投影误差估计,提升位姿估计的精度和效率;

  • 激光基础:构建残差->推导残差与状态的关系(雅可比)->位姿估计,原本应该是在视觉SLAM里就应该明白的,只不过,典型的激光SLAM相比传统的视觉SLAM有更多残差类型,例如:点到点、点到线、点到面等,需要理解通过构建残差优化位姿的整体思路,这会帮助你快速阅读语义SLAM相关的论文,也会帮助你通过自定义残差约束求解目标;

  • 融会贯通:结合三个经典开源算法(VINS-mono、SVO、LOAM),去找到以上这些算法点是如何被应用起来的,不要被庞大的代码、复杂的环境配置带偏了,读论文,读关键代码模块对应即可。

  • 资料推荐:高翔的视觉SLAM十四讲和秦永元的惯性导航(或严恭敏的组合导航算法)。 熟悉以上算法基本上应该入门了,至于特征提取与匹配、深度学习特征引入、3DGS等,适度了解吧。

B. 工程

  • C++基础:stl库(vector\map\queue等)、虚函数(继承\多态,理解OOP的抽象)、多线程(锁、条件变量)、设计模式(单例、生产者与消费者、pipeline);

  • ROS基础:拿一个开源算法和数据,跑起来,明白多线程、生产者与消费者之后,这块就很容易了;

  • 掌握和运用:工程方面与经验的关系比较大,多看ORB-SLAM、LOAM这俩算法可以快速帮你在工程上提高到一个比较可观的水平。

入门离掌握还有5个入门的距离

以上这些仅仅是入门,离能够解决实际问题还有很大距离。据我观察,很多工作多年且很努力的slamer也搞不清楚观测与状态的关系(不会推导雅可比,不会可观测分析,不明白雅可矩阵怎么和可观测分析结合),实践中发现问题只能调调参数,不会分析根本原因,不明白哪些是当前的主要误差源。不是他们不努力,是因为这要求比较宽比较深的理论基础和实践总结,如果有人带就很容易通,如果自己琢磨,需要比较高天分。

作者:stephen  编辑:智驾极客

原文链接:https://www.zhihu.com/question/393195575/answer/54580598484

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

▲ 长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值