一、3D视觉感知过程
1.输入:单摄像头或多摄像头生成的图像数据
- 单张图像
- 图像序列
2.输出
- 稀疏:物体在3D坐标系中的位置、大小、朝向、速度等
- 稠密:像素点的类别标签和深度信息
3.算法
- 按输入来分:单目、双目、多目
- 按输出来分:3D物体检测、场景深度估计
二.感知任务
1.难点
-
图像是真实世界在透视视图下的投影
-
透视投影导致距离/深度信息丢失
-
图像上物体的大小随距离而变化
-
很难估计物体的实际距离和大小
2.解决方案
- 借助其他传感器,比如激光雷达
- 借助几何假设和约束来辅助求解病态问题
- 借助深度学习自动地从图像中提取3D信息
何假设和约束来辅助求解病态问题 - 借助深度学习自动地从图像中提取3D信息
- 借助多个摄像头和立体视觉算法