Chapter 4

Chapter 4

Off-Policy Formulation of Temporal-Difference Learning

TD学习的关键特征之一是它能够从不完整的序列中学习而不需要等待结果。这个关键特征,使TD方法能够single state-state transitions中学习(最小的经验片段)。事实证明,我们可以利用这个独特的属性来做off-policy学习。

在本章中,我们为时差学习提供了一个off-policy表述,该表述基于从根据agent的行为策略产生的数据中进行的子采样1,即从轨迹中采样。然而,在现实中,我们希望使用所有的数据。因此,我们展示了如何使用重要性抽样技术,这使我们能够使用所有的样本。

4.1 Sub-sampling and i.i.d. formulation of TD learning

在这一节中,我们提出了one-step时间差分学习的off-policy预测问题。为了简单起见,我们认为off-policy数据是独立、同分布(i.i.d.)样本的形式。我们的目标是使用传统的TD方法从off-policy数据中学习,例如带有线性函数近似的TD(0)。

我们首先考虑标准的强化学习框架。在这个框架中,环境和agent行为策略 π b π_b πb共同产生了一个状态、行动和奖励序列, S 1 , A 1 , R 1 , S 2 , A 2 , R 2 , . . . S_1,A_1,R_1, S_2,A_2,R_2, ... S1,A1,R1,S2,A2,R2,...,我们可以将其分解为因果关系的4元组,$(S_1,A_1,R_1, S_1’), (S_2,A_2,R_2, S_2’), … , 其 中 ,其中 S’t = S{t+1}$。生成的数据被称为策略上的数据,因此形成一个轨迹。

对于某些元组,动作将匹配目标策略(我们正在学习的策略)在该状态下所做的动作,而对于其他元组则不匹配。我们可以放弃所有后者,因为与目标策略无关。对于前者,我们可以discard动作,因为它可以通过目标策略从状态决定。

稍微滥用一下符号,让 S k S_k Sk表示采取on-policy行动的第k个状态,让 R k 和 S k ′ R_k和S'_k RkSk表示相关的奖励和下一个状态。第k个on-policy transition,表示为 ( S k , R k , S k ′ ) (S_k,R_k,S'_k) (Sk,Rk,Sk),是一个由过渡的起始状态、过渡的奖励和过渡的结束状态组成的三元组。对应于学习算法的数据,比如说对于线性函数逼近的情况,三元组为 ( ϕ k , R k , ϕ k ′ ) (\phi_k,R_k, \phi'_k) (ϕk,Rk,ϕk),其中 ϕ k = ϕ ( S k ) , ϕ k ′ = ϕ ( S k ′ ) \phi_k = \phi(S_k),\phi'_k = \phi(S'_k) ϕk=ϕ(Sk)ϕk=ϕ(Sk)。现在,我们有一组数据,它看起来像一个片段的集合,而不是一个轨迹。现在我们可以认为这组数据有一个分布,因此我们可以去掉索引,谈论a single tuple of random variables ( ϕ , R , ϕ ′ ) (\phi,R,\phi') (ϕ,R,ϕ)

在i.i.d.中,状态 S k S_k Sk是根据一个任意的概率分布 μ μ μ μ μ μ是一个向量,其第s个元素是 μ ( s ) μ(s) μ(s))独立且同分布产生的,即起始状态分布。从每个 S k S_k Sk中,根据on-policy state-transition matrix P生成相应的 S k ′ S'_k Sk,并根据一个任意的有界分布生成相应的 R k R_k Rk。The final i.i.d. data sequence,即要学习的近似值函数,就是序列 ( ϕ ( S k ) , R k , ϕ ( S k ′ ) ) (\phi(S_k),R_k,\phi(S'_k )) (ϕ(Sk),Rk,ϕ(Sk)),k=1,2,…。此外,由于每个样本都是独立的,我们可以去掉索引,谈论a single tuple of random variables ( ϕ , R , ϕ ′ ) (\phi,R,\phi') (ϕ,R,ϕ)

值得一提的是,如果数据是通过轨迹跟踪收集的;也就是on-policy数据,那么基础状态分布 μ μ μ和状态转换概率分布P的关系是 μ T P = μ T μ^TP=μ^T μTP=μT。这个约束,是线性函数逼近的TD方法收敛的主要原因。如果由于任何原因(如off-policy情景),μ和P没有按照这个线性方程联系起来,收敛就不能得到保证。

4.2 Importance-weighting formulation

在上一节中,为了简单起见,我们介绍了子抽样和TD学习的i.i.d. formulation。然而,在现实中,我们希望使用所有的数据序列。此外,这将使我们能够进行moment-to-moment (online)的预测,而不丢弃一些数据

现在,考虑数据序列是根据行为策略 π b : S × A → [ 0 , 1 ] π_b : \mathcal S × \mathcal A → [0, 1] πb:S×A[0,1]产生的。让第t个样本以三元组的形式出现 ( S t , R t + 1 , S t + 1 ) (S_t,R_{t+1}, S_{t+1}) (St,Rt+1,St+1)。让目标策略π和行为策略 π b π_b πb是随机的。根据子抽样法,我们得到a bag of matched samples(可能是无限的),其形式为三元组 ( S k , R k , S k ′ ) k ≥ 0 (S_k,R_k, S'_k)_{k≥0} (Sk,Rk,Sk)k0,其符号已在上一节中介绍。

现在线性TD(0)将是:

在这里插入图片描述

现在我们问:我们如何从the expected TD update中抽样 E [ δ k ( θ ) φ k ] \mathbb E[δ_k(θ)φ_k] E[δk(θ)φk],而数据是根据agent行为策略产生的。在回答这个问题之前,我们采用以下的符号。设

在这里插入图片描述

在这里插入图片描述

下面的定理将帮助我们以找到off-policy的TD解,以off-policyTD(0)更新,而不需要通过子抽样的方案。

引理1。(off-policy TD的重要性加权)假设数据 ( S t , R t + 1 , S t ) t ≥ 0 (S_t,R_{t+1}, S_t)_{t≥0} (St,Rt+1,St)t0,根据一个静止行为策略 π b π_b πb生成,设静止目标策略为π。由式(4.2)可知

在这里插入图片描述

证明。因为这两个政策是静止的和固定的,因此自然而然地,期望项是明确的。因此,我们有

在这里插入图片描述

这里, P π ( s ′ ∣ s ) = π ( a ∣ s ) P ( s ′ ∣ s , a ) − 注 意 P ( s ′ ∣ s , a ) P^π(s'|s) = π(a | s)P(s'|s, a)-注意P(s'|s, a) Pπ(ss)=π(as)P(ss,a)P(ss,a)取决于环境而不是代理。

注意,状态分布μ是指根据agent的行为策略生成的数据的实际状态分布。

从引理1中,通过直接采样,我们得到以下线性TD(0)算法用于off-policy学习:

在这里插入图片描述

式中 δ t ≡ δ t ( θ t ) δ_t≡δ_t(θ_t) δtδt(θt)。上述更新通过目标策略(相对于行为策略)采取的动作的似然d对(on-policy)线性TD(0)更新进行加权。在这里,我们假设根据行为政策采取的行动总是有机会的;也就是说,重要性加权(可能性比)是有界限的。

The above update weights the (on-policy) linear TD(0) update by the likelihood of action taken by target policy (as opposed to behavior policy). Here, we have assumed that there is always a chance for an action to be taken according to behavior policy; that is, the importance-weight (likelihood ratio) is bounded.

但上述off-policy学习算法存在发散的可能性。在下一章中,我们提出了一种新的梯度TD方法,它为开发一般设置的收敛TD方法提供了一个构建块。

4.3 Conclusion

在本章中,我们提供了一个off-policy学习的一般公式,它与q学习等off-policy学习方法一致。在该公式中,目标策略的state-state transitions被纳入到学习中,而状态访问分布是由agent的行为决定的。为了有效地使用所有数据,我们还在更新中引入了importance-weighting技术。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值