【强化学习】入门笔记

强化学习,即通过智能体环境的交互使智能体在环境中获得奖励的过程。

智能体在环境中获取某种状态,强化学习中状态空间高维空间,比如在自动驾驶中,输入可以是车载工业相机录制的视频序列,也可以是激光雷达录制的点云数据等。输出则是一个动作(决策),这里可以是车辆的航向角变化,速度变化等。决策会使智能体在环境中运动,而环境会根据智能体的运动输出下一个状态以及该动作带来的奖励。强化学习的过程就是奖励叠加最优化的过程。

目前CV任务主要采取监督学习,即通过人为标注数据集来训练神经网络,以实现目标检测等图像分类任务。如此,学习器最终能达到的智能上限,即人类水平(人眼识别水平)。而强化学习的目的,是使智能体在未标注的序列数据中,通过不断试错,来累积奖励,最终发现最优动作序列,这个过程不需要人为干预,我们也无法预测智能体执行的某一动作序列是否是最优解,甚至可能产生坏的结果,因为在一个动作序列结束前(例如自动驾驶车辆从开始行驶到结束行驶的过程),我们无法判定奖励累积的值相对于已有值是否更优,这里存在一个延迟奖励的问题,使我们无法在训练过程中获取直观结论。同时,智能体的每一步决策会产生即时奖励,我们还需要关注的是,即时奖励和累积奖励的权衡问题,为了获取更高累积奖励,有时我们需要牺牲一部分即时奖励。

关于状态观测,状态是世界信息的全集,观测是状态的子集。比如在自动驾驶中车辆只能感知包含传感器采集到的图像、点云、gps等信息,无法感知环境的全部信息,我们称这种环境为部分可观测的,在这种情况下,强化学习通常被建模为部分可观测马尔可夫决策过程pomdp),可以由一个七元组描述:(S, A, T, R, \Omega , O, \gamma)。其中S表示状态空间,为隐变量,A为动作空间,T({s}'|s,a)为状态转移概率,R为奖励函数,\Omega (o|s, a)为观测概率,O为观测空间,\gamma为折扣系数。

一个马尔可夫决策过程包括策略、价值函数、模型三个组成部分。根据智能体学习的事物不同,可以分为基于价值的智能体和基于策略的智能体,前者主要应用在不连续的、离散的环境下,后者主要用在动作集合规模庞大、动作连续的场景。同时学习价值和策略的强化学习算法称为演员-评论员算法。根据智能体是否学习环境模型,可以分为有模型强化学习智能体和免模型强化学习智能体。前者和后者的主要区别在于前者对真实环境进行建模。

强化学习算法的测试环境选择,离散控制场景Gym,连续控制场景MuJoCo

Interview

·RL的应用场景:

多序列决策问题。需满足所有状态可重复到达。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值