用一句话来理解强化学习,就是通过让机器获得奖赏而“强化”某些有利偏好,从而引导机器完成任务。
注:奖赏也可能是负数,如,直升机(关闭引擎)着陆任务,坠毁则为绝对值很大的负数;安全着陆则为正数,其大小取决于着陆的精度和平稳程度等。
在马尔可夫决策过程中,“两阶段模型”是笔者独创的模型图,非常有利于教与学。
定义了γ折扣累积奖赏与T步累积奖赏
任务与奖赏
【西瓜书图16.1】的强化学习示意图描述了机器与环境的互动,强化学习任务对应于四元组:
E
=
⟨
X
,
A
,
P
,
R
⟩
E=\langle X,A,P,R\rangle
E=⟨X,A,P,R⟩,
其中,转移矩阵
P
:
X
×
A
×
X
↦
R
P:X\times A\times X\mapsto \mathbb{R}
P:X×A×X↦R,奖赏函数
R
:
X
×
A
×
X
↦
R
R:X\times A\times X\mapsto \mathbb{R}
R:X×A×X↦R或
R
:
X
×
X
↦
R
R:X\times X\mapsto \mathbb{R}
R:X×X↦R
如果具有马尔可夫性(即下一步只与当前步相关,而与历史无关),则通常采用马尔可夫决策过程(MDP),马尔可夫决策过程指下述情况2:
1、确定性转移,如图 16.1 所示。
即在当前状态 x i x_i xi下采取行动 a a a,确定性地转移到 x j x_j xj,奖赏 r = R ( x i , a , x j ) r=R(x_i,a,x_j) r=R(xi,a,xj),当奖赏只与状态转移有关时,则 r = R ( x i , x j ) r=R(x_i,x_j) r=R(xi,xj)。
2、概率性转移,如图 16.2 所示。
即在当前状态 x i x_i xi下采取行动 a a a,不一定转移到 x j x_j xj,而是依概率 p p p转移到 x j x_j xj,其余事项与确定性转移相同。
马尔可夫决策过程(MDP)中,状态 x i x_i xi转移到 x j x_j xj实际上经历了两个阶段:
(i) 行动决策:若依当前状态 x i x_i xi就可以确定行动 a a a,则称为确定性策略,即策略 π : X ↦ A \pi :X \mapsto A π:X↦A,若策略中具有随机因素,则为随机性策略,需要用概率表示 π ( x , a ) \pi( x ,a) π(x,a),即 π : X × A ↦ R \pi :X\times A \mapsto \mathbb{R} π:X×A↦R,并且有 ∑ a π ( x , a ) = 1 \sum_{a}\pi( x ,a)=1 ∑aπ(x,a)=1。 确定性策略可视为随机性策略的特例:取该动作 a a a的概率为1,其余动作的概率为0.
(ii) 行动结果:采取行动后,结果状态具有某种随机性,即有条件概率 P ( x j ∣ x i , a k ) P(x_j|x_i,a_k) P(xj∣xi,ak)。
这两阶段表示为图 16.3 。
注:分拆为“两阶段模型”是笔者独创的模型图,非常有利于教学,在此模型下,笔者通常将
R
x
→
x
′
a
R^a_{x\to x'}
Rx→x′a记为
R
(
x
,
a
)
→
x
′
R_{(x,a)\to x'}
R(x,a)→x′,另外,还可以引入行动成本:
C
x
→
a
C_{x\to a}
Cx→a(在状态
x
x
x下执行行动
a
a
a所花费的成本),本书不作讨论。
读者可以用图 16.3 ,改造【西瓜书图16.2】。
从时间角度来看奖赏,就有一个“折现”问题。
我们先看看生活中的情况:设年利率为
r
=
10
%
r=10\%
r=10%,那么,现在的100元钱存入银行,一年后即为
100
(
1
+
10
%
)
100(1+10\%)
100(1+10%),5年后即为
100
(
1
+
10
%
)
5
100(1+10\%)^5
100(1+10%)5,等等。 一个反向问题是:5年后(第6年初)的100元钱,折算到现在(折现)应为多少?设为
x
x
x,则有方程
x
(
1
+
10
%
)
5
=
100
即:
x
=
100
(
1
+
10
%
)
−
5
=
100
[
1
1
+
10
%
]
5
\begin{align*} & x(1+10\%)^5=100\notag \\ \text{即: } & x=100(1+10\%)^{-5}=100\left[\frac{1}{1+10\%}\right]^5 \end{align*}
即: x(1+10%)5=100x=100(1+10%)−5=100[1+10%1]5
其中,
[
1
1
+
10
%
]
\left[\frac{1}{1+10\%}\right]
[1+10%1]即为折现率(或称折扣),记为
γ
\gamma
γ,它与利率
r
r
r相对应。 将上述正反两个方向的情形放在一起,则有图 16.4 ,其中,折现率
γ
\gamma
γ与利率
r
r
r的关系为
γ
=
1
1
+
r
\begin{align} \gamma=\frac{1}{1+r} \tag{16.1} \end{align}
γ=1+r1(16.1)
将马尔可夫决策过程中的“步”(即图 16.3 中的两阶段)对比到图 16.4 中的“年”,即: 设第
t
+
1
t+1
t+1步获得的奖赏值为
r
t
+
1
r_{t+1}
rt+1,步折扣率为
γ
\gamma
γ,则第
t
+
1
t+1
t+1步的奖赏折现为
γ
t
r
t
+
1
\gamma ^t r_{t+1}
γtrt+1。 无限步的累计奖赏为
∑
t
=
0
∞
γ
t
r
t
+
1
\sum_{t=0}^\infty \gamma ^t r_{t+1}
∑t=0∞γtrt+1, 由于
r
t
+
1
r_{t+1}
rt+1为随机变量,故可取期望(将其消去,形成均值)
E
t
:
0
→
∞
∑
t
=
0
∞
γ
t
r
t
+
1
\begin{align} \mathop{\mathbb{E} }\limits_{t:0\to \infty}\sum_{t=0}^\infty \gamma ^t r_{t+1} \tag{16.2} \end{align}
t:0→∞Et=0∑∞γtrt+1(16.2)
式(16.2)称为“
γ
\gamma
γ折扣累积奖赏”。
只考虑有限步(
T
T
T步)时,有
E
t
:
0
→
T
∑
t
=
1
T
γ
t
r
t
\begin{align} \mathop{\mathbb{E} }\limits_{t:0\to T}\sum_{t=1}^T \gamma ^t r_{t} \tag{16.3} \end{align}
t:0→TEt=1∑Tγtrt(16.3)
式(16.3)称为“
γ
\gamma
γ折扣
T
T
T步累积奖赏”。
当不考虑折扣率(或不知折扣率)时,式(16.3)中以
1
T
\frac{1}{T}
T1取代
γ
t
\gamma ^t
γt,也即采取取“步平均奖赏”的方式
E
t
:
1
→
T
1
T
∑
t
=
1
T
r
t
\begin{align} \mathop{\mathbb{E} }\limits_{t:1\to T}\frac{1}{T}\sum_{t=1}^T r_{t} \tag{16.4} \end{align}
t:1→TET1t=1∑Trt(16.4)
式(16.4)称为“
T
T
T步累积奖赏”(虽然叫“累积”,但实际上是累积奖赏平均到步,即“步均奖”)。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权