Chapter 3

Chapter 3

Objective Function for Temporal-Difference Learning

一个目标函数是一个可修改参数θ的函数,我们通过更新θ来求其最小值。在(随机)梯度下降中,对θ的更新与目标函数相对于θ的负(样本)梯度成正比。在标准RL中,目标是找到满足Bellman方程的解。然而,在函数逼近的情况下,如何将Bellman方程与值函数逼近相结合尚不清楚。

在本章中,我们寻求一个目标函数(针对政策评估的情况),其最小值提供了近似值函数的合理解。我们提出了一个Bellman-error目标函数,其中td解是其最优解。我们的结论是,事实上这个目标函数是相当可靠的,因此我们的其余分析将基于它进行。

3.1 Several potential objective functions

在这一节中,我们首先考虑几个可能对近似动态规划和时间差分学习方法有用的目标函数。然后在下一节中,我们研究每一个的可靠性,并最终选择最可靠的一个。

Mean-square-error (MSE)

目标函数的一个自然选择可能是近似值函数 V θ V_θ Vθ和真值函数 V π V^π Vπ之间的均方误差(MSE),即

在这里插入图片描述

其中, V θ V_θ Vθ V π V^π Vπ被看作是每个状态有一个元素的向量,范数 ∣ ∣ v ∣ ∣ μ 2 = Σ s μ ( s ) v 2 ( s ) ||v||^2_μ=\Sigma_s μ(s)v^2(s) vμ2=Σsμ(s)v2(s) V π V^π Vπ是真正的价值函数向量,在MDP条件下,它满足贝尔曼方程(2.2)。

Mean-square Bellman-error (MSBE): 近似 V θ V_θ Vθ满足Bellman方程的程度的一个看似自然的度量是均方Bellman误差:

在这里插入图片描述

其中T是Bellman算子(为简单起见,我们去掉了T算子的上标π)。

这是之前开发梯度下降算法最重要的努力所使用的目标函数(Baird, 1995; Baird, 1999)。然而,大多数流行的时间差分算法,包括带有函数近似的TD(0),并没有收敛到MSBE的最小值。为了理解这一点,请注意贝尔曼算子遵循马尔科夫链的基本状态动态,而不考虑函数逼近器的结构。因此,对于任何θ, T V θ TV_θ TVθ通常都不能被表示为 V θ V_θ Vθ

residual gradient(RG)方法,事实上是被提出来寻找这个目标函数的最优解的,然而,由于一些技术问题–例如,鉴于当前状态,要求有两个独立的下一个状态,它在现实世界的广泛应用中并不实用。因此,有人建议在给定当前状态的情况下,只使用一个样本作为下一个状态。然而,这种解决方案(称为RG解决方案)被认为比TD解决方案要差。

Mean-square TD-error (MSTDE):

目标函数的另一个选择是最小化均方TD-error (MSTDE);也就是说,

在这里插入图片描述

其中 δ t ( θ ) = r t + 1 + γ V θ ( S t + 1 ) − V θ ( S t ) δ_t(θ) = r_{t+1}+γV_θ(S_{t+1})-V_θ(S_t) δt(θ)=rt+1+γVθ(St+1)Vθ(St)。这个目标函数的主要问题是其结果较差。例如,对于表格表示,一般来说,其最优解不满足Bellman方程。RG解是MSTDE目标函数的最优解。

Mean-square projected Bellman-error (MSPBE): 在前一章中,我证明了线性TD(0)的TD解满足 V θ = Π T V θ V_θ = ΠTV_θ Vθ=ΠTVθ。因此,目标函数的另一种选择是取均方投影Bellman-error (MSPBE)目标函数:

在这里插入图片描述

尽管许多以前的工作都强调了实现TD解(2.14)的目标。我们目前的工作似乎是第一个把最小化MSPBE作为一个目标函数,通过梯度白化法来实现最小化。最小化MSPBE的想法也在Antos, Szepesv´ari和Munos (2007, p. 100, 2008)中提出,其中讨论了将LSTD解决方案视为最小化MSPBE。

3.2 Which objective function to choose?

在这里插入图片描述

图3.2:在左图和中图中,事件开始于状态A,然后以相同的概率过渡到B或C,然后以1或0的奖励进行终止(所有其他过渡的奖励为零)。状态的垂直位置代表了根据TD解(左图)和根据剩余梯度(RG)方案(中图;Baird 1995, 1999)的价值。例如,状态A在两个解决方案中的高度都在0和1之间,对应于它的正确值 1 / 2 1/2 1/2(因为从A开始的情节有一半时间的总奖励是1,一半时间的总奖励是0,而γ=1)。

为了进一步了解候选目标函数之间的差异,让我们考虑图3.2所示的情景示例,并比较从提出的目标函数获得的解决方案。

在左边和中间的图中,事件从状态A开始,然后状态A以1/2的概率向B或C过渡,然后以1或0的奖励终止(所有其他转换都没有奖励)。我们考虑状态的表格表示,因此,我们期望得到从Bellman方程可以得到的真实解。

在右图中,称为A-split的例子,状态A现在被分成两个状态, A 1 和 A 2 A_1和A_2 A1A2,它们有相同的特征表示;它们看起来是一样的,必须被赋予相同的近似值。因此, A 1 和 A 2 A_1和A_2 A1A2的特征向量都是 ϕ ( A 1 ) = ϕ ( A 2 ) = ( 1 , 0 , 0 ) T \phi(A_1)=\phi(A_2)=(1,0,0)^T ϕ(A1)=ϕ(A2)=(100)T,同时我们还有 ϕ ( B ) = ( 0 , 1 , 0 ) T \phi(B)=(0,1,0)^T ϕ(B)=(010)T以及 ϕ ( C ) = ( 0 , 0 , 1 ) T \phi(C)=(0,0,1)^T ϕ(C)=(001)T。轨迹以50%的概率从两个A状态中的一个开始,然后确定性地进入B和1,或者进入C和0。

首先,我们考虑以下符号。让随机样本的形式为triple ( S , R , S ′ ) (S,R,S') (S,R,S)的形式,并有相应的状态特征向量 ϕ ( S ) 和 ϕ ( S ′ ) \phi(S)和\phi(S') ϕ(S)ϕ(S),R表示沿着transition的奖励。这个transition的TD误差为 δ ( θ ) = R + γ θ T ϕ ( S ′ ) − θ T ϕ ( S ) δ(θ)=R+γθ^T\phi(S')-θ^T\phi(S) δ(θ)=R+γθTϕ(S)θTϕ(S)。在此,我们比较以下四种解决方案。

  • 从Bellman方程得到的精确解。

  • TD解θ,满足 E [ δ ( θ ) ϕ ] = 0 \mathbb E[δ(θ)\phi] = 0 E[δ(θ)ϕ]=0,同时最小化MSPBE目标函数(3.3)。

  • 最小化MSBE目标函数(2.19)的解决方案:

在这里插入图片描述

  • RG解决方案,最小化以下目标函数:

在这里插入图片描述

在左边的图中,我们可以看到根据TD solution,状态B和C分别被赋予1和0的值,这是从贝尔曼方程中得到的精确解。然而,在RG解决方案中,它们被赋予 3 / 4 和 1 / 4 3/4和1/4 3/41/4的值。1,0的值是正确的,因为这些状态后面总是有这些奖励,但它们导致了很大的TD误差,δ=±12。

RG方案在所有的转换中都有较小的TD误差,δ=±14,导致per episode的均方TD误差为 1 4 2 × 2 = 1 8 \frac{1}{4}^ 2×2=\frac{1}{8} 412×2=81,而TD方案为 1 2 2 = 1 4 \frac{1}{2}^2=\frac{1}{4} 212=41。也就是说,RG方案(对下一个状态有一个样本)将TD误差分成两个transitions,以使TD误差的平方最小。

这里的关键区别是,从A开始,the squared TD error趋向于大,但预期的TD误差(贝尔曼误差)趋向于零(只要B和C的值在12左右对称分布)。

TD解1,0实际上是MSBE在这个问题上的最小值,这导致了人们普遍认为MSBE解决了这个问题。然而,一般情况下不是这样的;一旦引入函数近似,包括不可观察的状态,MSBE和MSPBE的解就不同了, 3 / 4 , 1 / 4 3/4,1/4 3/4,1/4的解可能重新出现。

图3.2右显示了这样一个例子。从可观察的数据来看,这个例子和前面的例子一样,只是现在采取多个样本没有帮助,因为系统是确定的,它们都将是相同的。现在 3 / 4 , 1 / 4 3/4,1/4 3/4,1/4的解决方案不仅使TD的平方误差最小,而且使MSBE最小;只有MSPBE准则使1,0的解决方案最小。

MSBE目标导致函数近似资源的消耗,试图减少与A1和A2相关的贝尔曼误差(The MSBE objective causes function approximation resources to be expended trying to reduce the Bellman error associated with A1 and A2),而MSPBE目标考虑到它们的近似值最终将投射到相同的值上。考虑到他们的近似值最终会被投射到同一个值上 函数上。

Scherrer(2010)对TD-解和RG-解的可靠性都进行了分析。他还提供了一个oblique projection framework,可以描述从TD(0)算法和RG方法得到的解决方案,这只限于单步TD方法。然而,要注意的是,具有线性/非线性函数近似的TD方法的解决方案会随着资格迹的变化而变化。因此,为引导参数λ选择一个合适的值,可以使用TD(λ)提供一个高质量的解决方案。

然而,我们认为,a -split例子提供了一些见解,告诉我们,当状态不可见时,MSBE目标函数存在一个基本问题——这也是函数逼近概念的固有问题。值得注意的是,函数逼近与状态的部分可观测性有关。也就是说,我们做函数近似的一个原因,是因为状态空间太大,我们不能观察到所有的状态空间。

A-split示例表明MSBE结果可能不如td解决方案,然而,这不是我们在这里放弃MSBE目标函数的唯一原因。其中一个主要问题是其随机梯度下降方向的双采样限制。第二个问题是,在大规模的问题中,所有的状态都是不可见的。因此,我们使用函数逼近。

解决这个问题(也是MSBE的问题)的一个方法是,在函数逼近的情况下,用特征而不是实际状态来限定期望项。因此,我们定义以下基于特征的MSBE目标函数:

在这里插入图片描述

其中我们使用了线性函数近似。 V θ ( S ) = θ T ϕ ( S ) V_θ(S)= θ^T\phi(S) Vθ(S)=θTϕ(S)。通过直接采样,我们得到以下更新

在这里插入图片描述

现在,因为我们使用的是线性函数近似,所以用特征空间的度量来表示 E [ δ ( θ ) ∣ S ] \mathbb E[δ(θ)|S] E[δ(θ)S]的值是有意义的,即 E [ δ ( θ ) ∣ S ] ≈ w ( θ ) T ϕ ( S ) \mathbb E[δ(θ)|S]≈w(θ)^T\phi(S) E[δ(θ)S]w(θ)Tϕ(S)。结果表明,最佳线性拟合(使用均方误差准则)的结果是,

在这里插入图片描述

有趣的是,在MSPBE目标中,上述更新的方向是沿着随机梯度下降方向进行的,这最终导致了TD解(详见第五章,特别是TDC算法)。

最后,我们通过给出下面的函数来结束对目标函数的讨论,这个函数似乎没有一个现成的几何解释,但是,它的最小值满足TD解。在这里,我们称之为the norm of the expected TD update:

在这里插入图片描述

3.3 Conclusion

在本章中,我们介绍了几种可能用于TD学习的目标函数,并展示了它们各自的优缺点。最后,我们注意到MSPBE目标函数似乎比MSBE目标函数更可靠。在推导基于MSPBE(和NEU)目标函数的梯度- td算法之前,我们首先在接下来的章节中阐述off-policy学习问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值