本系列是依据DEEPLIZARD强化学习课程来的,属于对该课程的一些记录和翻译,有能力的话建议阅读原文,翻译成中文就没有那种味道了。课程的地址为:
预期收益Expected Return
在上一节我们说到,MDP中agent的目标是使累计奖励(cumulative rewards)最大化,我们需要一种方法来量化累计奖励,因此提出了预期收益Expected Return的概念。
我们首先将Expected Return理解为未来reward的加和,用公式表示为
G
t
=
R
t
+
1
+
R
t
+
2
+
.
.
.
R
T
G_t=R_{t+1}+R_{t+2}+...R_T
Gt=Rt+1+Rt+2+...RT
T表示最后一个时间步
It is the agent's goal to maximize the expected return of rewards.
Episodic Vs. Continuing Tasks
Episodic的中文翻译为情节、事件,这里可以理解为阶段性任务。也就是说,一个大任务可以被分解为多个小任务。拿一局乒乓球比赛为例,我们的大任务就是赢得比赛,而小任务就是不断得分。agent通过不断与对手击球(环境交互)、并得分或丢掉分数(获取reward)来学习经验。这里每次得分就可以被看作一次Episodic。
而Continuing Tasks表示任务是没有终止的,即最后一个时间步 T = ∞ T=\infty T=∞,例如炒股,agent要一边和环境交互一边学习。
关于Episodic 和Continuing Tasks之间的对比可以参考这里
由于Continuing Tasks的终止时间步
T
=
∞
T=\infty
T=∞,这就会导致我们上面提到的Expected Return
G
t
=
R
t
+
1
+
R
t
+
2
+
.
.
.
R
T
G_t=R_{t+1}+R_{t+2}+...R_T
Gt=Rt+1+Rt+2+...RT
它的值将趋向 ∞ \infty ∞,这对于agent最大化累计收益是很困难的,因此我们需要设计一种方法将Expected Return变为有限值。
折扣预期收益Discounted Return
我们将agent的最终目标由最大化Expected Return修改为最大化Discounted Return。首先定义了一个折扣因子
γ
∈
[
0
,
1
]
\gamma\in[0,1]
γ∈[0,1],折扣因子是对未来reward的折扣率并将决定未来奖励的现值,我们将Discounted Return定义为
G
t
=
R
t
+
1
+
γ
R
t
+
2
+
γ
2
R
t
+
3
+
.
.
.
.
=
∑
k
=
0
∞
γ
k
R
t
+
k
+
1
G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3} + ....=\sum_{k=0}^{\infty} \gamma^k R_{t+k+1}
Gt=Rt+1+γRt+2+γ2Rt+3+....=k=0∑∞γkRt+k+1
这种定义就导致与未来奖励相比,agent将更加注重即时奖励
R
t
+
1
R_{t+1}
Rt+1,因为未来奖励因为折扣因子
γ
\gamma
γ的存在而大打折扣。因此,即时奖励将会对agent选择的action有更大的影响。
连续时间步之间的预期收益有以下关系
G
t
=
R
t
+
1
+
γ
R
t
+
2
+
γ
2
R
t
+
3
+
γ
3
R
t
+
4
+
.
.
.
=
R
t
+
1
+
γ
(
R
t
+
2
+
γ
R
t
+
3
+
γ
2
R
t
+
4
+
.
.
.
)
=
γ
G
t
+
1
G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3} + \gamma^3 R_{t+4} + ...\\ =R_{t+1}+\gamma( R_{t+2}+\gamma R_{t+3} + \gamma^2 R_{t+4}+...)=\gamma G_{t+1}
Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+...=Rt+1+γ(Rt+2+γRt+3+γ2Rt+4+...)=γGt+1
观察上式,在t时刻的折扣预期收益也是具有无穷多项,但实际上它们的加和是有限的。举个例子,假设每次reward为非零且是常数,且已知
γ
<
1
\gamma<1
γ<1,那么折扣预期收益就可以写为
G
t
=
∑
k
=
0
∞
γ
k
=
1
γ
−
1
G_t=\sum_{k=0}^{\infty}\gamma^k=\frac{1}{\gamma -1}
Gt=k=0∑∞γk=γ−11
上式不明白的同学可以去看看无穷级数的概念。