无人驾驶实战-第十二课（强化学习自动驾驶系统）（完）

最新推荐文章于 2024-06-02 09:37:43 发布

pzb19841116

最新推荐文章于 2024-06-02 09:37:43 发布

阅读量1.2k

点赞数 1

分类专栏：人工智能文章标签：自动驾驶人工智能机器学习

本文链接：https://blog.csdn.net/pzb19841116/article/details/132189525

版权

人工智能专栏收录该内容

15 篇文章 2 订阅

订阅专栏

在七月算法上报了《无人驾驶实战》课程，老师讲的真好。好记性不如烂笔头，记录一下学习内容。课程入口，感兴趣的也可以跟着学一下。

—————————————————————————————————————————

强化学习：通过和环境交互学习到如何在相应环境中采取最优策略的行为。特点是不需要标注，具有鲁棒性，对行为(Action)的学习更友好。

Environment：整体任务的工作环境

Reward：激励、奖励，对行为好坏的一个评价，Value Function，不同环境可以有不同的奖励，奖励的设计对RL来说至关重要。

Agent：智能体，一般是RL的作用对象

Action：智能体可以采取的所有可能的行动

Sensors：环境返回的当前情况

MDP模型：马尔科夫决策过程

逆强化学习：能够找到一种能够高效可靠的Reward的方法，专家在完成某项任务时，其决策往往是最优或接近最优的。当所有的策略所产生的累积回报期望都不比专家策略所产生的累积回报期望大时，对应的回报函数就是根据示例学到的回报函数。

常用的逆强化学习方法：学徒学习方法、最大边际规划算法MMP、基于最大熵的逆向强化学习

模仿学习：从专家提供的范例中学习，一般提供人类专家的决策数据，每个决策包含状态和动作序列，把状态作为特征，动作作为标记进行分类或回归的学习从而得到最优策略模型。目标是使模型生成的状态-动作轨迹分布和输入的轨迹分布相匹配，算是一种监督学习方法（行为克隆）。特点是泛化性很差，依赖于大量数据数据增广

深度学习：感知能力，缺乏一定的决策能力

强化学习：决策能力，非常适合做无人车决策规划

强化学习中的一些分类：On-Policy vs Off-Policy、Model Based vs Model Free、Q-Learning vs SARSA、

DQN（Deep Q Network）端到端的学习方式、深度卷积神经网络和Q学习、经验回放技术；

DDPG（Deep Deterministic Policy Gradient ） actor-critic 算法、深度神经网络作为逼近器；