深度学习——day5 读论文：（外）面向自动驾驶的深度强化学习：综述

本文链接：https://blog.csdn.net/qq_43537420/article/details/126584379

（外）面向自动驾驶的深度强化学习：综述

引言

这篇论文涉及的相关文献与术语非常多，主要是对自动驾驶AD和强化学习RL进行了归纳和总结，可以先看看思维导图这篇论文大概有什么内容，再细看自己感兴趣或了解的部分；反正我就看着挺痛苦，要学的东西也太多！！！！

思维导图

请添加图片描述

随着深度表示学习的发展，强化学习（RL ：Reinforcement Learning）领域已经成为一个强大的学习框架，现在能够在高维环境中学习复杂的策略。
这篇综述总结了深度强化学习（DRL）算法，并提供了采用（D）RL方法的自动驾驶任务的分类，同时解决了自动驾驶代理实际部署中的关键计算挑战。它还描绘了相邻的领域，如行为克隆，模仿学习，逆强化学习，这些领域是相关的，但不是经典的RL算法。讨论了模拟器在训练代理中的作用，验证，测试和健壮RL中现有解决方案的方法。

典型自动驾驶系统的组成部分

① Scene Understanding

（场景理解）

从感知模块获得的信息映射到高级动作或决策模块

概念上理解

① 场景理解

② 决策

③ 规划

② Localization and Mapping

（定位和映射）

Key：一旦区域被映射，车辆的当前位置就可以在地图中定位

局部高清晰度地图（HD地图）可用作目标检测的先验

③ Planning and Driving Policy

（规划和驱动策略）

轨迹规划是自主驾驶流水线中的一个关键模块，该模块用于生成操纵代理（汽车;agent）的motion-level命令。

④ Control

控制器定义路径中每个点所需的速度、转向角和制动动作

速度控制

PID（比例积分微分）

车辆/环境的动力学由定义良好的微分方程建模

MPC（模型预测控制）

跟踪指定路径时稳定车辆的行为

自主车辆随机控制领域论文推荐

关于该主题的调查：
[17] S. Kuutti, R. Bowden, Y . Jin, P. Barber, and S. Fallah,
“A survey of deep learning applications to autonomous vehicle control,”
IEEE Trans.
Intell. Transp. Syst., early access, Jan. 7, 2020, doi: 10.1109/TITS.
2019.2962338.

强化学习 RL

机器学习 ML

有监督学习

使用标记数据进行训练以执行分类或回归

无监督学习

未标记数据的密度估计或聚类等技术

强化学习

自主代理通过与环境交互来学习在指定任务中提高其性能

Russel和Norvig将代理定义为
“可以通过传感器感知其环境并通过致动器对该环境起作用的任何东西”

背景：马尔可夫决策过程（MDP）被视为在形式化涉及单个RL代理的顺序决策问题时的事实标准

MDP由一组状态、一组动作、一个转移函数T和一个奖励函数R[22]组成，即元组<S，a，T，R>

挑战：代理在勘探策略的设计

开发 exploitation

（代理选择已知会产生的高回报行为）

随着训练的进行，代理会逐渐进行更多的开发

探索 exploration

（为了发现有益的行为，需要冒险尝试新行为）

代理对环境问题不了解，在训练开始时需要更多探索

算法

Value-Based Methods

基于价值的方法侧重于评估最佳累积回报，并让政策遵循建议

Policy-Based Methods

基于政策的方法旨在直接估计最佳政策

Actor-Critic Methods

Actor-Critic Method就是基于价值方法和基于策略方法的结合
Actor负责做动作，但它不知道什么动作是好的，而Critic网络能对Actor的动作做出评价。

Model-Based (vs. Model-Free) & On/Off Policy Methods

Deep Reinforcement Learning

基本RL的扩展

基本单代理RL范式的一些主要扩展；本文讨论的许多扩展已被证明可以提高复杂问题领域的可扩展性、学习速度和/或收敛性能。

概述：应用RL的自动驾驶问题

① State Spaces, Action Spaces and Rewards

（状态空间、行动空间和奖励）

② Motion Planning & Trajectory Optimization

（运动规划与轨迹优化）

③ Simulator & Scenario Generation Tools

（模拟器和场景生成工具）

④ LfD and IRL for AD Applications

（从示范中学习和逆强化学习在自动驾驶中的应用）

真实场景部署RL的挑战

① Validating RL Systems

（验证基于强化学习系统的性能）

policy gradient methods for continuous control algorithms as well as in reproducing benchmarks

连续控制算法的策略梯度算法（PPO、DDPG和TRPO）及其基准

② Bridging the Simulation-Reality Gap

（弥合模拟与现实之间的差距）

代理在模拟中学习策略。

③ Sample Efficiency

（样本效率）

Reward shaping

（奖励塑造）

通过设计更频繁的奖励函数以鼓励代理从更少的样本中更快地学习

Actor-Critic with Experience Replay（ACER）

利用回放缓冲区，使其能够使用每段样本经验执行一次以上的梯度更新，以及信赖域策略优化方法。

Transfer learning

（迁移学习）

重用源任务的先前训练策略来初始化目标任务的学习

Meta-learning

（元学习）

从少量经验中快速学习新技能，受益于他们对世界的先验知识

④ Exploration Issues With Imitation

（关于模仿问题的探讨）

Chauffernet证明了模仿学习的局限性

M. Bansal, A. Krizhevsky, and A. Ogale, “ChauffeurNet: Learning to drive by imitating the best and synthesizing the worst,”
in Robotics,Science and Systems XV, 2018.