DEEPLIZARD强化学习2----预期收益Expected Return

本系列是依据DEEPLIZARD强化学习课程来的,属于对该课程的一些记录和翻译,有能力的话建议阅读原文,翻译成中文就没有那种味道了。课程的地址为:

DEEPLIZARD强化学习课程

B站上的视频地址

该博客的原地址


预期收益Expected Return

上一节我们说到,MDP中agent的目标是使累计奖励(cumulative rewards)最大化,我们需要一种方法来量化累计奖励,因此提出了预期收益Expected Return的概念。

我们首先将Expected Return理解为未来reward的加和,用公式表示为
G t = R t + 1 + R t + 2 + . . . R T G_t=R_{t+1}+R_{t+2}+...R_T Gt=Rt+1+Rt+2+...RT

T表示最后一个时间步

It is the agent's goal to maximize the expected return of rewards.

Episodic Vs. Continuing Tasks

Episodic的中文翻译为情节、事件,这里可以理解为阶段性任务。也就是说,一个大任务可以被分解为多个小任务。拿一局乒乓球比赛为例,我们的大任务就是赢得比赛,而小任务就是不断得分。agent通过不断与对手击球(环境交互)、并得分或丢掉分数(获取reward)来学习经验。这里每次得分就可以被看作一次Episodic。

而Continuing Tasks表示任务是没有终止的,即最后一个时间步 T = ∞ T=\infty T=,例如炒股,agent要一边和环境交互一边学习。

关于Episodic 和Continuing Tasks之间的对比可以参考这里

由于Continuing Tasks的终止时间步 T = ∞ T=\infty T=,这就会导致我们上面提到的Expected Return
G t = R t + 1 + R t + 2 + . . . R T G_t=R_{t+1}+R_{t+2}+...R_T Gt=Rt+1+Rt+2+...RT

它的值将趋向 ∞ \infty ,这对于agent最大化累计收益是很困难的,因此我们需要设计一种方法将Expected Return变为有限值。


折扣预期收益Discounted Return

我们将agent的最终目标由最大化Expected Return修改为最大化Discounted Return。首先定义了一个折扣因子 γ ∈ [ 0 , 1 ] \gamma\in[0,1] γ[0,1],折扣因子是对未来reward的折扣率并将决定未来奖励的现值,我们将Discounted Return定义为
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3} + ....=\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} Gt=Rt+1+γRt+2+γ2Rt+3+....=k=0γkRt+k+1
这种定义就导致与未来奖励相比,agent将更加注重即时奖励 R t + 1 R_{t+1} Rt+1,因为未来奖励因为折扣因子 γ \gamma γ的存在而大打折扣。因此,即时奖励将会对agent选择的action有更大的影响。

连续时间步之间的预期收益有以下关系
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + γ 3 R t + 4 + . . . = R t + 1 + γ ( R t + 2 + γ R t + 3 + γ 2 R t + 4 + . . . ) = γ G t + 1 G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3} + \gamma^3 R_{t+4} + ...\\ =R_{t+1}+\gamma( R_{t+2}+\gamma R_{t+3} + \gamma^2 R_{t+4}+...)=\gamma G_{t+1} Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+...=Rt+1+γ(Rt+2+γRt+3+γ2Rt+4+...)=γGt+1

观察上式,在t时刻的折扣预期收益也是具有无穷多项,但实际上它们的加和是有限的。举个例子,假设每次reward为非零且是常数,且已知 γ < 1 \gamma<1 γ<1,那么折扣预期收益就可以写为
G t = ∑ k = 0 ∞ γ k = 1 γ − 1 G_t=\sum_{k=0}^{\infty}\gamma^k=\frac{1}{\gamma -1} Gt=k=0γk=γ11

上式不明白的同学可以去看看无穷级数的概念。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值