随笔
我读这本书是希望能对自动驾驶感知有一个框架式的了解。
优点:
- 专门介绍感知的书很少,这本书填补了这一块空白。做到了对感知有一个全方位的介绍。追求更详细的感觉可以直接看论文。
- 编排结构合理。
- 成书稍晚,选材也新一些。
缺点:
- 一是这本书的内容介绍方式比较随意,有的小节会介绍低层具体模型、公式;有的小节是从高层角度来谈。这些内容没有内化,形成更深入的理解。
- 二是这本书的小错误太多,也不规范,比如参考文献没有对上、错标、格式不整齐;卡尔曼滤波的公式符号写错,加粗与否没有仔细斟酌。可能有编者们工作也比较忙,内容也比较新的原因。
版本:2020年6月
页数:186
字数:30.3K
目录
这里记录一些关键内容
第1章 感知概述
环境信息主要用于状态感知和V2X网联通信。
第2章 传感器介绍
- 摄像头、激光雷达、毫米波雷达、超声波雷达、惯性导航
- 《第一本无人驾驶技术书 第2版》介绍了图像级高清激光雷达
- 优缺点、在自动驾驶中的应用
- P21有个总结表
第3章 传感器标定
目的是将两个或多个传感器变换到统一的时空坐标系。
摄像头
- 内参
- 畸变:径向畸变误差、切向畸变误差
- 标定方法:
- 平面标定模式:一块标定板、张正友标定法
- 自标定:需要大量精准图像
- 外参:确定多摄像头的位置关系
- PnP问题、光束平差法
- 典型外参标定:双目摄像头之间、长焦摄像头与广角摄像头之间
激光雷达
- 激光雷达与激光雷达之间
- 激光雷达与摄像头之间:使用标定目标(RANSAC)、自标定(离线标定)
联合标定
同时标定两组以上的外参
实验结果:长焦到&短焦、摄像头到多线激光雷达、毫米波雷达到激光雷达
第4章 计算机视觉与神经网络
- 视觉皮层发现了某一部分只对某一特定频率的信号敏感,这很像不同的滤波算子。
- CV在自动驾驶的作用:双目视觉获取深度、点云检测、运动估计、物体检测识别与追踪、场景分割、SLAM
- PReLU:带参数的ReLU。softplus
- GoogleNet、ResNet、DenseNet、SENet
第5章 环境感知与识别
感觉5、6两章是最重要的内容
障碍物检测
- 基于图像
- 二维
- 一阶段:YOLO系列、SSD
- 二阶段:FasterRCNN、MS-CNN《第一本无人驾驶技术书》
- 三维:检测长方体。
- 准确率:激光雷达>双目摄像头>单目摄像头
- YOLO3D
- 地面平行假设
- 二维
- 基于激光雷达
- 基于几何特征
- VoxelNet:体素划分与分组、随机抽样。VoxeVoxel Feature Encoder将点云转换为描述性的volumetric表示形式
- 基于视觉和激光雷达融合 (感觉这里实际上是在说标定问题)
- 需要考虑空间&时间上的融合
车道线检测
- 基于传统计算机视觉
- 基于道路特征:颜色特征、纹理特征、多特征融合
- 基于道路模型:直线模型、双曲线道路模型
- 基于深度学习:看做分割or分类问题
- LaneNet(实例分割) + H-Net(转换矩阵)
- SCNN:将第一片输出加到下一片作为输入,重复卷积,直到处理完最后一片
- 基于激光雷达:解决视觉检测在被水覆盖、光照不好时的问题
- 基于反射强度信息的方法
红绿灯检测
相比于一般检测,红绿灯太小。针对小目标,大致方法有:图像金字塔、逐层卷积、特征金字塔、空洞卷积、RNN思想
- 基于传统视觉方法:
- 基于颜色和边缘信息
- 基于背景抑制
- 网络方法:
- 二阶段方法:FPN红绿灯检测(FasterRCNN的进阶)
- 一阶段方法:特征融合SSD
- 结合高精地图
- 高精地图需要达到分米级才能区分各个车道
场景流
深度估计
- 基于激光雷达:直接、可靠
- 问题:稀疏需要差值;采集范围有限;车载时有时速范围限制(是指激光雷达限制车速嘛);价格昂贵
- 希望能多传感器协同工作
- 基于图像
- 双目
- 《第一本无人驾驶技术书》第5章介绍了Siamese网络、第6章介绍了MC-CNN
- 单目
- 直接回归
- 利用重构
- 深度和自身运动网络
- 左右一致性深度估计。训练时成对,测试时一张,所以仍然算作单目估计
- 双目
光流估计
- LK算法:经典算法
- FlowNet:基于时序
V2X
车 V2V
路 V2I:道路危险状态提醒、限速提醒、信号灯提醒、滤波同行
人 V2P:手机、智能穿戴设备等实现交互
云 V2N:实现远距离数据传输
路测感知
- 车路协同
- 车路协同系统(CVIS)是智能交通系统(ITS)的重要子系统
- 交通控制方法(是说红绿灯吗)经历了几个阶段:
- 固定配时
- 感应控制
- 区域协调控制
- 基于方案选择
- 基于排队模型
第6章 道路复杂场景语义理解
ApolloScape数据集
KITTI数据集
可行驶区域检测
- 基于传统计算机视觉
- 直接特征的可行驶区域检测
- 基于颜色
- 基于纹理:Gabor滤波器
- 基于边缘:Sobel、Prewitt等算子
- 基于间接特征
- 透视变换中找灭点
- 直接特征的可行驶区域检测
- 基于深度学习
- 语义分割
- FCN
复杂场景理解
区分车辆所处的场景,如城市繁华地段道路环境 / 行人密集的住宅区和校园 / 高速公路 / 村镇道路
- CNN+LSTM
- 多信息输入:原图、语义分割结果、特殊类型的检测结果
动态场景理解
感知图像序列中的运动物体
多目标跟踪
两大问题:目标定位 & 目标识别。
对应分成两类方法:基于检测 & 基于预测。
根据是否限制目标的种类又可分为:类别相关 & 类别无关
- 目标外观建模
- 目标形状模型
- 质点模型
- 简单几何形状模型
- 链接性状模型
- 骨架模型
- 目标剪影和轮廓模型
- 目标特征描述
- 颜色特征
- 梯度信息:SIFT、SURF
- 纹理特征:Gabor、LBP
- 光流特征(Optical Flow,OF)
- 边缘特征:边缘检测器
- 多特征融合
- 目标形状模型
- 目标运动估计
对目标的位置进行估计- 约束型模型
- 约束型模型:临近性约束、最大速度约束、速度稳定约束、相似运动约束、刚性运动
- 描述型模型
- 线性(匀速)运动模型
- 非线性(变速)运动模型
- 约束型模型
- 目标检测
- 线上检测器:帧差法、背景消除法、光流法
- 线下检测器:基于学习的检测器。主要是类别相关检测
- 数据关联
在得到目标检测结果后,通过优化等手段,将尚未明确身份的检测结果逐一识别,从而在检测的基础上完成跟踪。
早期方法:基于联合概率数据关联(JPDAF)的跟踪算法、多假设跟踪、转换为匹配问题、建立k部图、基于马尔可夫决策过程的MOT算法(《第一本无人驾驶技术书》)
近年来:连续地能量函数优化问题
路径实时预测
预测运动轨迹
- TrafficPredict:实现层(个体对象)、类别层(同一类对象)
行人手势识别
- 姿态估计
- 基于沙漏网络基本模型:hourglass结构。将多个hourglass结构堆叠,形成最终的网络
- 动作识别
- 基于单帧
- 基于CNN的多帧动作识别
- 多帧分类结果融合
- 考虑时序信息
- 基于姿态的动作i识别
- 多种信息融合
- e.g. 原始图像 + 光流信息
基于PointNet的点云分类和语义分割
- 三维点云数据的深度学习,有四个方向:
- 体素法:例如三维FCN
- 多视角投影:鸟瞰图、前视图,例如MV3D
- 点云网络:例如PointNet
- 融合使用二维图像和三维点云数据:例如Lahoud等人提出再RGB图像上的三维检测方法,F-PointNet
- PointNet:针对点云数据的无序性和空间变换的不变性;空间变换网络STN
- PointNet++:考虑了局部区域,弥补PointNet在实例分割表现不好的问题。采样层、组合层、特征提取层(包括多尺度融合、多分辨率融合两种)、特征反传
第7章 多传感器融合
需要解决的挑战与问题:
- 数据对准、传感器观测数据不稳定、数据关联、不完整不一致及虚假数据
基础理论
-
融合结构
- Low-level融合
- 数据级
- 图像级
- 目标级
- 信号级
- 特征级
- 目标状态信息融合
- 目标特征信息融合
- 数据级
- High-level融合
- 分布式融合机构 or 集中式融合结构
- 混合式融合结构
P171给了一张三种融合结构的比较图
- Low-level融合
-
融合算法
- 随机类方法
- 加权平均
- 贝叶斯估计
- D-S证据理论
- 卡尔曼滤波:卡尔曼滤波法本质就是最小均方误差准则下的最优线性估计。(这本书的卡尔曼滤波公式推导质量很低,建议看PRML第11章,或者看Computer Vision Models Learning and Inference)
- 《无人驾驶原理与实践》中介绍了一种激光雷达和毫米波雷达异步的扩展卡尔曼滤波和无损卡尔曼滤波。
并介绍了一次运动模型(线性运动模型)包括:恒定速度模型CV、恒定加速度模型CA。二次运动模型包括:恒定转率和速度(CTRV)模型、恒定转率和加速度(CTRA)模型、恒定转向角和速度(CSAV)模型、常速率和加速度(CCA)模型
- 《无人驾驶原理与实践》中介绍了一种激光雷达和毫米波雷达异步的扩展卡尔曼滤波和无损卡尔曼滤波。
- 人工智能方法
- 模糊逻辑理论
- 神经网络
- 随机类方法
后融合技术
-
Ulm自动驾驶:模块化的融合方法:分层模块化(2015)
- 网格映射 -> 网格图
- 定位 -> 自身位置数字映射
- 目标跟踪 -> 物体理解表
组合得到环境模型
-
FOP-MOC模型(2015)
- 证据框架
- 雷达和激光雷达哦关于移动目标的检测,摄像头用于目标分类
前融合技术
由于每个传感器都只探测到目标的某一部分,而这一部分极有可能在后融合中被当作背景过滤,所以前融合能获得目标更可靠的信息
- MV3D(2017):3D目标检测。雷达鸟瞰图、雷达前视图
- 鸟瞰图抽取Proposal
- AVOD(2018):3D目标检测
- 鸟瞰图和图像融合特征提取,抽取Proposal
- F-PointNet(2018):3D目标检测
- 视锥体生成、3D实例分割、3D边界框回归
- 三次坐标系转换:摄像机坐标系 -> 平截头体坐标系 -> 3D掩膜质心 --T-Net-> 3D目标坐标系
- 先得到2D边界框,再将其提升到3D搜索空间的视锥体
其他书籍内容
《无人驾驶原理与实践》介绍了迁移学习、端到端无人驾驶强化学习
《第一本无人驾驶技术书 第2版》介绍了强化学习、视觉里程计、高精度地图中的使用
迁移学习
端到端无人驾驶
Toy Example
强化学习
这部分基础内容建议看邱锡鹏《神经网络与深度学习》
- DQN
- 策略梯度
- REINFORCEMENT算法
- 深度确定性策略梯度
- Actor-Critic框架
- TORCS游戏
视觉里程计
- 视觉定位
- 基于拓扑与地标
- 基于几何的视觉
- 单目
- 双目
高精度地图中的使用
《第一本》中的第18章和19章
- “Human-in-THE-LOOP"机器学习(人介入的主动学习)
- 机器学习应用:位姿估计、路面标记提取、交通灯建图、路牌建图、路缘提取、柱状物提取、地图更新(及时收集新的、检测出旧的)
参考文献
[1] 《自动驾驶汽车环境感知》
[2] 《无人驾驶原理与实践》
[3] 《第一本无人驾驶技术书 第2版》