(《机器学习》完整版系列)第16章 强化学习——16.1 任务与奖赏(从MDP出发)

用一句话来理解强化学习,就是通过让机器获得奖赏而“强化”某些有利偏好,从而引导机器完成任务。
注:奖赏也可能是负数,如,直升机(关闭引擎)着陆任务,坠毁则为绝对值很大的负数;安全着陆则为正数,其大小取决于着陆的精度和平稳程度等。

在马尔可夫决策过程中,“两阶段模型”是笔者独创的模型图,非常有利于教与学。
定义了γ折扣累积奖赏与T步累积奖赏

任务与奖赏

【西瓜书图16.1】的强化学习示意图描述了机器与环境的互动,强化学习任务对应于四元组: E = ⟨ X , A , P , R ⟩ E=\langle X,A,P,R\rangle E=X,A,P,R
其中,转移矩阵 P : X × A × X ↦ R P:X\times A\times X\mapsto \mathbb{R} P:X×A×XR,奖赏函数 R : X × A × X ↦ R R:X\times A\times X\mapsto \mathbb{R} R:X×A×XR R : X × X ↦ R R:X\times X\mapsto \mathbb{R} R:X×XR

如果具有马尔可夫性(即下一步只与当前步相关,而与历史无关),则通常采用马尔可夫决策过程(MDP),马尔可夫决策过程指下述情况2:

1、确定性转移,如图 16.1 所示。
图 16.1 确定性转移

图 16.1 确定性转移

即在当前状态 x i x_i xi下采取行动 a a a,确定性地转移到 x j x_j xj,奖赏 r = R ( x i , a , x j ) r=R(x_i,a,x_j) r=R(xi,a,xj),当奖赏只与状态转移有关时,则 r = R ( x i , x j ) r=R(x_i,x_j) r=R(xi,xj)

2、概率性转移,如图 16.2 所示。
图 16.2 概率性转移

图 16.2 概率性转移

即在当前状态 x i x_i xi下采取行动 a a a,不一定转移到 x j x_j xj,而是依概率 p p p转移到 x j x_j xj,其余事项与确定性转移相同。

马尔可夫决策过程(MDP)中,状态 x i x_i xi转移到 x j x_j xj实际上经历了两个阶段:

(i) 行动决策:若依当前状态 x i x_i xi就可以确定行动 a a a,则称为确定性策略,即策略 π : X ↦ A \pi :X \mapsto A π:XA,若策略中具有随机因素,则为随机性策略,需要用概率表示 π ( x , a ) \pi( x ,a) π(x,a),即 π : X × A ↦ R \pi :X\times A \mapsto \mathbb{R} π:X×AR,并且有 ∑ a π ( x , a ) = 1 \sum_{a}\pi( x ,a)=1 aπ(x,a)=1。 确定性策略可视为随机性策略的特例:取该动作 a a a的概率为1,其余动作的概率为0.

(ii) 行动结果:采取行动后,结果状态具有某种随机性,即有条件概率 P ( x j ∣ x i , a k ) P(x_j|x_i,a_k) P(xjxi,ak)

这两阶段表示为图 16.3 。
注:分拆为“两阶段模型”是笔者独创的模型图,非常有利于教学,在此模型下,笔者通常将 R x → x ′ a R^a_{x\to x'} Rxxa记为 R ( x , a ) → x ′ R_{(x,a)\to x'} R(x,a)x,另外,还可以引入行动成本: C x → a C_{x\to a} Cxa(在状态 x x x下执行行动 a a a所花费的成本),本书不作讨论。

图 16.3 转移的两阶段

图 16.3 转移的两阶段

读者可以用图 16.3 ,改造【西瓜书图16.2】。

从时间角度来看奖赏,就有一个“折现”问题。

我们先看看生活中的情况:设年利率为 r = 10 % r=10\% r=10%,那么,现在的100元钱存入银行,一年后即为 100 ( 1 + 10 % ) 100(1+10\%) 100(1+10%),5年后即为 100 ( 1 + 10 % ) 5 100(1+10\%)^5 100(1+10%)5,等等。 一个反向问题是:5年后(第6年初)的100元钱,折算到现在(折现)应为多少?设为 x x x,则有方程
x ( 1 + 10 % ) 5 = 100 即:  x = 100 ( 1 + 10 % ) − 5 = 100 [ 1 1 + 10 % ] 5 \begin{align*} & x(1+10\%)^5=100\notag \\ \text{即: } & x=100(1+10\%)^{-5}=100\left[\frac{1}{1+10\%}\right]^5 \end{align*} 即: x(1+10%)5=100x=100(1+10%)5=100[1+10%1]5
其中, [ 1 1 + 10 % ] \left[\frac{1}{1+10\%}\right] [1+10%1]即为折现率(或称折扣),记为 γ \gamma γ,它与利率 r r r相对应。 将上述正反两个方向的情形放在一起,则有图 16.4 ,其中,折现率 γ \gamma γ与利率 r r r的关系为
γ = 1 1 + r \begin{align} \gamma=\frac{1}{1+r} \tag{16.1} \end{align} γ=1+r1(16.1)

图 16.4 时间效应

图 16.4 时间效应

将马尔可夫决策过程中的“步”(即图 16.3 中的两阶段)对比到图 16.4 中的“年”,即: 设第 t + 1 t+1 t+1步获得的奖赏值为 r t + 1 r_{t+1} rt+1,步折扣率为 γ \gamma γ,则第 t + 1 t+1 t+1步的奖赏折现为 γ t r t + 1 \gamma ^t r_{t+1} γtrt+1。 无限步的累计奖赏为 ∑ t = 0 ∞ γ t r t + 1 \sum_{t=0}^\infty \gamma ^t r_{t+1} t=0γtrt+1, 由于 r t + 1 r_{t+1} rt+1为随机变量,故可取期望(将其消去,形成均值)
E t : 0 → ∞ ∑ t = 0 ∞ γ t r t + 1 \begin{align} \mathop{\mathbb{E} }\limits_{t:0\to \infty}\sum_{t=0}^\infty \gamma ^t r_{t+1} \tag{16.2} \end{align} t:0Et=0γtrt+1(16.2)
式(16.2)称为“ γ \gamma γ折扣累积奖赏”。

只考虑有限步( T T T步)时,有
E t : 0 → T ∑ t = 1 T γ t r t \begin{align} \mathop{\mathbb{E} }\limits_{t:0\to T}\sum_{t=1}^T \gamma ^t r_{t} \tag{16.3} \end{align} t:0TEt=1Tγtrt(16.3)
式(16.3)称为“ γ \gamma γ折扣 T T T步累积奖赏”。

当不考虑折扣率(或不知折扣率)时,式(16.3)中以 1 T \frac{1}{T} T1取代 γ t \gamma ^t γt,也即采取取“步平均奖赏”的方式
E t : 1 → T 1 T ∑ t = 1 T r t \begin{align} \mathop{\mathbb{E} }\limits_{t:1\to T}\frac{1}{T}\sum_{t=1}^T r_{t} \tag{16.4} \end{align} t:1TET1t=1Trt(16.4)
式(16.4)称为“ T T T步累积奖赏”(虽然叫“累积”,但实际上是累积奖赏平均到步,即“步均奖”)。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:15.11 基于逆归结的机器证明
下一篇:16.2 K-摇劈赌博机的贪心算法(赌博当然贪心)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值