多模态语义分割基础

最新推荐文章于 2025-03-06 13:24:42 发布

HelloNettt

最新推荐文章于 2025-03-06 13:24:42 发布

阅读量4k

点赞数 1

文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_41502322/article/details/125746447

版权

文章目录

1 多传感模式的特点
2 深度语义分割
3 多模态语义分割
- 3.1 MULTI-MODAL DATASETS
- 3.2 多模态语义分割的挑战与问题
参考

语义分割的目标：是将一个场景分割成几个有意义的部分，通常是用语义标记图像中的每个像素(pixel-level semantic segmentation)，或者同时检测对象并进行逐像素标记(instance-level semantic segmentation)。
最近，为了统一pixel-level semantic segmentation和instance-level semantic segmentation，提出了全景分割（panoptic segmentation）。

1 多传感模式的特点

视觉和热成像相机：视觉（visual camera）和热成像相机（thermal camera）捕捉到的图像可以提供车辆周围环境的详细纹理信息。视觉相机对光线和天气条件很敏感；热成像相机对白天/夜间的变化更敏感，因为它们能探测到与物体热量有关的红外辐射。然而，这两种类型的相机都不能直接提供深度信息。

LIDAR（Light Detection And Ranging）：以三维点的形式给出周围环境的精确深度信息。LIDAR是主动摄影，它测量以一定频率发射的激光束的反射。激光雷达对不同的照明条件受影响较小，而且比视觉相机更少受到各种天气条件的影响，如雾和雨。典型的激光雷达无法捕捉到物体的精细纹理，且当物体距离较远时，激光雷达的点会变得稀疏。

Radar(无线电探测和测距)：Radar发射被障碍物反射的电磁波，测量信号运行时间，通过多普勒效应估计物体的径向速度、距离和角度。它们在各种光照和天气条件下都很鲁棒，但由于分辨率低，通过雷达对物体进行分类非常具有挑战性。radar在自适应巡航控制和交通拥堵辅助系统中有着广泛的应用。毫米波（mmWave）是一种短波雷达技术。