【强化学习】入门笔记

最新推荐文章于 2022-09-16 19:03:44 发布

言潇然

最新推荐文章于 2022-09-16 19:03:44 发布

阅读量315

点赞数

分类专栏：【强化学习】文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/NG_Hao/article/details/125736723

版权

【强化学习】专栏收录该内容

3 篇文章 0 订阅

订阅专栏

强化学习，即通过智能体与环境的交互使智能体在环境中获得奖励的过程。

智能体在环境中获取某种状态，强化学习中状态空间是高维空间，比如在自动驾驶中，输入可以是车载工业相机录制的视频序列，也可以是激光雷达录制的点云数据等。输出则是一个动作（决策），这里可以是车辆的航向角变化，速度变化等。决策会使智能体在环境中运动，而环境会根据智能体的运动输出下一个状态以及该动作带来的奖励。强化学习的过程就是奖励叠加最优化的过程。

目前CV任务主要采取监督学习，即通过人为标注数据集来训练神经网络，以实现目标检测等图像分类任务。如此，学习器最终能达到的智能上限，即人类水平（人眼识别水平）。而强化学习的目的，是使智能体在未标注的序列数据中，通过不断试错，来累积奖励，最终发现最优动作序列，这个过程不需要人为干预，我们也无法预测智能体执行的某一动作序列是否是最优解，甚至可能产生坏的结果，因为在一个动作序列结束前（例如自动驾驶车辆从开始行驶到结束行驶的过程），我们无法判定奖励累积的值相对于已有值是否更优，这里存在一个延迟奖励的问题，使我们无法在训练过程中获取直观结论。同时，智能体的每一步决策会产生即时奖励，我们还需要关注的是，即时奖励和累积奖励的权衡问题，为了获取更高的累积奖励，有时我们需要牺牲一部分即时奖励。

关于状态和观测，状态是世界信息的全集，观测是状态的子集。比如在自动驾驶中车辆只能感知包含传感器采集到的图像、点云、gps等信息，无法感知环境的全部信息，我们称这种环境为部分可观测的，在这种情况下，强化学习通常被建模为部分可观测马尔可夫决策过程（ $pomdp$ ），可以由一个七元组描述：（ $S, A, T, R, \Omega , O, \gamma$ ）。其中 $S$ 表示状态空间，为隐变量， $A$ 为动作空间， $T({s}'|s,a)$ 为状态转移概率， $R$ 为奖励函数， $\Omega (o|s, a)$ 为观测概率， $O$ 为观测空间， $\gamma$ 为折扣系数。

一个马尔可夫决策过程包括策略、价值函数、模型三个组成部分。根据智能体学习的事物不同，可以分为基于价值的智能体和基于策略的智能体，前者主要应用在不连续的、离散的环境下，后者主要用在动作集合规模庞大、动作连续的场景。同时学习价值和策略的强化学习算法称为演员-评论员算法。根据智能体是否学习环境模型，可以分为有模型强化学习智能体和免模型强化学习智能体。前者和后者的主要区别在于前者对真实环境进行建模。

强化学习算法的测试环境选择，离散控制场景 $Gym$ ，连续控制场景 $MuJoCo$ 。