强化学习 了解强化学习的目标和回报

一、目标和收益

智能体的目标被形式化的表征为一种特殊的信号,被称为收益,他通过环境传递给智能体,收益都是一个单一的标量数值,非正式的说,智能体的目标是最大化其收到的总收益,这意味这需要最大化的不是当前的收益,而是长期积累的收益。

简单的说,我们所有的目标或者说目的,都可以被总结为,最大化智能体接受到的标量信号(即收益),累计和的概率期望值。-------使用收益信号来形式化目标是强化学习最显著的特征之一。

二、回报和分幕

我们已经知道了,智能体的目标就是最大限度地提高长期收益。那么我们应该怎样正式定义呢?在我们的目标智能体是面对当前状态为St的时候,我们希望这个智能体能够做出一个动作At,使得在该时刻t之后的累计rewards最大,于是需要用现有的知识去实际后面的累计rewards(当然我们现在还没有能够计算出后面累计rewards的能力,这需要用目前的知识去估计后面的情况);我们将最大化期望回报记为G_t

G_t = R_{t+1}+R_{t+2}+R_{t+1}+...+R_{T}

在这样的情况下,我们将智能体和环境的交互自然的分为一系列的子序列,我们称这些子序列为分幕即episodes,比如学习下棋,每一盘都可以作为一个新的episodes,但是一些持续型的任务无法分成单独的episodes,这些任务是连续的,而且甚至有的任务控制时间无限长,我们需要引入一个新的概念,称为折扣,因为如果按照上面的公式G_t = R_{t+1}+R_{t+2}+R_{t+1}+...+R_{T},那么G_t的大小将变得无限大,我们将这类任务的目标回报记为,其中gama在[0,1]

G_t = R_{t+1}+\gamma R_{t+2}+\gamma ^{2} R_{t+1}+... =\sum\gamma ^{k}R_{t+k+1}

特别的,重要的,临界的回报可以通过递归的方式联系起来:

G_t = R_{t+1}+\gamma G_{t+1}

特别的,重要的,如果收益的值是一个常数“1”,则回报是

G_t = \sum\gamma ^{t} = \frac{1}{1-\gamma}

三、杆任务与案例

小车移动推着杆子走,需要保证杆子不落下,如果杆子偏离垂直方向一定角度或者小车偏离轨道则视为失败,每次失败后,杆子重新回到垂直位置。

(1)这个任务可以分为分幕式的,这里的幕(episodes)是试图平衡杆子的每一次操作,对每一次杆子不倒下都可以给出收益+1,因此知道失败前,每一次的回报就是步数。同时永远的平衡就意味这无限的回报。

(2)或者我们可以将这个任务看作持续性任务,并使用折扣,在这种情况下,每次失败的收益是-1,其余情况则为0,每次回报将与-\gamma^{K}相关,其中K是失败前的步数。

无论是上述哪种情况,尽可能的长时间保持平衡都将得到收益的最大化。

Q:将杆平衡看作一个使用折扣的分幕式任务,当失败则收益为-1,否则为0。那么每次回报是多少?如果是持续性的情况呢?

分幕式:G_t = -\gamma^{T-t}

持续性:G_t = -\sum\gamma^{k-t}

 

 

基于pytorch和numpy的贪吃蛇强化学习模型 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据,只有奖励信号。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。 强化学习在工程领域的应用也相当广泛。例如,Facebook提出了开源强化学习平台Horizon,该平台利用强化学习来优化大规模生产系统。在医疗保健领域,RL系统能够为患者提供治疗策略,该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。 总的来说,强化学习是一种通过智能体与环境交互,以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值