DEEPLIZARD强化学习2----预期收益Expected Return

努力work，早发paper

已于 2022-10-06 09:51:09 修改

阅读量641

点赞数

分类专栏：强化学习文章标签：强化学习人工智能

于 2022-02-27 20:15:43 首次发布

本文链接：https://blog.csdn.net/weixin_43414694/article/details/123167070

版权

强化学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本系列是依据DEEPLIZARD强化学习课程来的，属于对该课程的一些记录和翻译，有能力的话建议阅读原文，翻译成中文就没有那种味道了。课程的地址为：

DEEPLIZARD强化学习课程

B站上的视频地址

该博客的原地址

预期收益Expected Return

在上一节我们说到，MDP中agent的目标是使累计奖励(cumulative rewards)最大化，我们需要一种方法来量化累计奖励，因此提出了预期收益Expected Return的概念。

我们首先将Expected Return理解为未来reward的加和，用公式表示为
$G_t=R_{t+1}+R_{t+2}+...R_T$

T表示最后一个时间步

It is the agent's goal to maximize the expected return of rewards.

Episodic Vs. Continuing Tasks

Episodic的中文翻译为情节、事件，这里可以理解为阶段性任务。也就是说，一个大任务可以被分解为多个小任务。拿一局乒乓球比赛为例，我们的大任务就是赢得比赛，而小任务就是不断得分。agent通过不断与对手击球(环境交互)、并得分或丢掉分数(获取reward)来学习经验。这里每次得分就可以被看作一次Episodic。

而Continuing Tasks表示任务是没有终止的，即最后一个时间步 $T=\infty$ ，例如炒股，agent要一边和环境交互一边学习。

关于Episodic 和Continuing Tasks之间的对比可以参考这里

由于Continuing Tasks的终止时间步 $T=\infty$ ，这就会导致我们上面提到的Expected Return
$G_t=R_{t+1}+R_{t+2}+...R_T$

它的值将趋向 $\infty$ ，这对于agent最大化累计收益是很困难的，因此我们需要设计一种方法将Expected Return变为有限值。

折扣预期收益Discounted Return

我们将agent的最终目标由最大化Expected Return修改为最大化Discounted Return。首先定义了一个折扣因子 $\gamma\in[0,1]$ ，折扣因子是对未来reward的折扣率并将决定未来奖励的现值，我们将Discounted Return定义为
$G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3} + ....=\sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$
这种定义就导致与未来奖励相比，agent将更加注重即时奖励 $R_{t+1}$ ，因为未来奖励因为折扣因子 $\gamma$ 的存在而大打折扣。因此，即时奖励将会对agent选择的action有更大的影响。

连续时间步之间的预期收益有以下关系
$G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3} + \gamma^3 R_{t+4} + ...\\ =R_{t+1}+\gamma( R_{t+2}+\gamma R_{t+3} + \gamma^2 R_{t+4}+...)=\gamma G_{t+1}$

观察上式，在t时刻的折扣预期收益也是具有无穷多项，但实际上它们的加和是有限的。举个例子，假设每次reward为非零且是常数，且已知 $\gamma<1$ ，那么折扣预期收益就可以写为
$G_t=\sum_{k=0}^{\infty}\gamma^k=\frac{1}{\gamma -1}$

上式不明白的同学可以去看看无穷级数的概念。

努力work，早发paper

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DEEPLIZARD强化学习2----预期收益Expected Return

本系列是依据DEEPLIZARD强化学习课程来的，属于对该课程的一些记录和翻译，有能力的话建议阅读原文，翻译成中文就没有那种味道了。课程的地址为：DEEPLIZARD强化学习课程B站上的视频地址该博客的原地址目录预期收益Expected ReturnEpisodic Vs. Continuing Tasks折扣预期收益Discounted Return预期收益Expected Return在上一节我们说到，MDP中agent的目标是使累计奖励(cumulative rewards)最大化，我们
复制链接

扫一扫