slam观点，欢迎补充

m0_52765390

已于 2024-05-07 22:29:14 修改

阅读量267

点赞数 7

文章标签： linux imu lidar

于 2024-04-23 13:32:08 首次发布

本文链接：https://blog.csdn.net/m0_52765390/article/details/138122136

版权

多模态slam 多模态包括：视觉、激光、文本、声音等等
深度学习与slam融合：特征提取、重定位、神经网络辐射场等。

神经辐射场引入了importance Sampling（重要性采样）和Positional Encoding（位置编码），使得三维重建的质量有了显著提升；同时NeRF神经渲染算法减少了传统三维重建中生成的伪影，在大多数情况下效果都比传统算法好。目前重建图像质量最好的是Mip-NeRF360。

将slam技术融合到深度学习中，更加容易使得所有算法能够统一到一个框架中，方便不同算法之间的数据传输和通信。比如建好的地图可以用于语义标注，从而接入BEV感知中训练，又或者可以生成Occupancy网格去做路径规划和智能体控制。

rgbd相机的量程一般几米；lidar量程一般几十米至几百米。
具身智能
slam与大模型的结合
3dgs（3D高斯辐射场），基于图像的三维重建方法，直白的就是：对现实物体或者场景拍照片，可以给你训练成一个场景模型；并做渲染。基于3dgs的slam 的优势：
（1）快速渲染和丰富的优化。Gaussian Splatting 可以以高达400fps的速度渲染，使其比隐式表达更快地可视化和优化。
（2）有明确空间的建图。现有地图的空间边界可以通过在之前观察到的部分场景中添加高斯函数来控制。给定一个新的图像帧，可以通过渲染剪影识别场景的哪些部分是新内容（在地图的边界感之外）。这对于Tracking 任务很重要，因为只想将已经建好图的部分与新图像帧进行比较。隐式表达就不行，因为在对未知区域建图优化的时候，全局的优化会影响到神经网络。
（3）显示地图。可以通过添加更多的Gaussian 函数来任意地增加地图容量，而且这种显式的表达让我们可以编辑场景中的某些部分，同时仍允许真实的渲染。隐式方法不能轻易地增加其容量或编辑其所表示的场景。

视觉语义slam

lidar+rtk融合用的较多，纯视觉slam效果不佳。

集群、无人机协同、多机协同搜索。

基于Nerf的slam算法采用全局地图和图像重建损失函数，通过可微分渲染捕获稠密的光度信息，具有高保真度。但是用Implicit Neural Representation（隐式神经表达）对场景建模存在一些问题：
（1）query过程（可以理解为射线渲染）需要大量的采样，渲染方法成本高，
（2）用了大型多层MLP，运算量大，占用内存高，
（3）不容易编辑，不能显式地对空间几何建模，
（4）导致“遗忘”问题。

3dgs是基于不同高斯球的表征，相比于Nerf-slam，其渲染速度更快。

在室外，想要获得高精度的定位与建图，lidar必不可少。

RGBD相机结合了传统彩色相机（RGB）和深度传感器（D），可以同时获取场景的彩色图像和深度信息，这为室内建图提供了丰富的数据源。使用高性能的RGBD相机和合适的算法可以在短时间内生成准确、精细的室内地图。

基于激光雷达（LiDAR）和视觉结合的定位与建图（SLAM）技术结合了激光雷达的高精度测距能力和视觉传感器的丰富纹理信息，为机器人、无人驾驶车辆等智能系统提供了更强大、更鲁棒的环境感知能力。