强化学习系列(九):On-policy Prediction with Approximation

本文深入探讨了强化学习中的on-policy预测问题,使用近似值函数(如线性函数和神经网络)来估计状态值。文章阐述了value function近似的重要性,它允许处理部分可观测问题,但需要处理不断变化的数据集。文章详细讲解了随机梯度下降法和半梯度方法,以及线性方法中的特征构造,如多项式、傅里叶基、粗编码和径向基函数。此外,还介绍了非线性函数逼近,特别是人工神经网络的应用,包括深度学习和反向传播算法。最后,文章提到了内存和基于内核的函数逼近方法,强调了在on-policy学习中对特定状态的兴趣和重点。
摘要由CSDN通过智能技术生成

一、前言

针对 on-policy prediction 问题,用function approximate 估计 state-value function的创新在于:value function 不再是表格形式,而是权重参数为w的数学表达式,即 v̂ (s,w)vπ(s) v ^ ( s , w ) ≈ v π ( s ) 。其中 v̂  v ^ 可以是state的线性函数,也可以是一个多层人工神经网络(ANN),也可以是一个决策树。值得注意的是,权重 w w 的维度小于states 的数目,也就是说,一个权重可以改变多个state 的估计值(estimated value)。

将function approximate 用于强化学习可以解决部分可观测问题(即有部分state 是agent 无法获得的),function approximate 不可以用于基于过去观测来扩展state的问题,在第17章重点讨论。

二、value function Approximation

所有的prediction方法都采用back-up value(或update target)来更新value:


对MC(蒙特卡罗)有 StGt S t ↦ G t
对TD(0)有 StRt+1+γv̂ (St+1,wt) S t ↦ R t + 1 + γ v ^ ( S t + 1 , w t )
对n-step TD 有 StGtt+n S t ↦ G t : t + n
对 DP(动态规划)有 sEπ[Rt+1+γv̂ (St+1,wt)|St=s] s ↦ E π [ R t + 1 + γ v ^ ( S t + 1 , w t ) | S t = s ]


其中 su s ↦ u 表示,在状态 s 下对应的update target 为 u。这种更新方式可以看做对value function的一个 desired input-output behavior,即希望state s的估计值(estimated value)接近update target u。其中,value 表中 s的估计值很容易趋近于 u,而其他states的估计值不会发生变化。现在允许采用一种更复杂的更新方式,即在s 上的估计值更新会牵扯到其他states 的估计值更新。这种update target可以类比与机器学习中的标签,这种数据有标签的机器学习方法称为监督学习(supervised learning),使得输入数据像期望输出数据接近。因此监督学习的方法可以用于强化学习中的value prediction 问题

但大部分监督学习方法都是假设用于训练的数据集(training set)是静态的,即大小是固定的,但对于强化学习问题,其涉及到与环境不断交互,产生新的state,这需要function approximate 的方法可以有效的从递增的训练集中在线学习。另外,强化学习的target function有时候会不断改变,如在control问题中,GPI 过程需要学习当Policy π π 改变时的 qπ q π 。即使Policy保持不变,由bootstrapping(步步为营)方法(如TD或DP)生成的target values也是非静态的。如果某些方法不能很轻松的处理非静态问题,就不太适合用于强化学习问题。

三、The Prediction Objective ( VE V E ¯ )

迄今为止,我们没有一个用于明确表示Prediction 问题的指标。在tabular(表格化) 问题中,因为学习得到的value function就直接等于真实的value function,因此不需要明确prediction 的质量。另外,表格化问题中的一个state的value更新不会影响其他state的value更新。

但在运用function approximation 后,一个state的value 更新会影响其他很多states 的value值,这样我们不可能获得每个state 的values的真实值。假设有足够多的state ,数目多余 权重数目,对一个state的准确估计意味着牺牲其他 state 的value估计精度。

我们有责任确定这些state的重要程度,使用一个分布 μ(s)0,sμ(s)=1 μ ( s ) ≥ 0 , ∑ s μ ( s ) = 1 来表示对每个state value估计误差的重视程度,其中,误差为估计值 v̂ (s,w) v ^ ( s , w ) 和真实值 vπ(s) v π ( s ) 的平方差。此时,prediction的目标为最小化均方根误差 VE V E ¯ :
这里写图片描述

对episode task 的on-policy而言, μ(s) μ ( s ) 通常如下面框图所示:
这里写图片描述

prediction的目标为最小化均方根误差 VE V E ¯ ,即找到一个全局最优,使得存在 w w ∗ 对所有 w w

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值