时间差分方法(TD)是强化学习中最核心的也是最新奇的方法,混合了动态规划(DP)和蒙特卡洛方法(MC)
- 和MC类似,TD从历史经验中学习
- 和MDP类似,使用后继状态的值函数更新当前状态的值函数
TD属于无模型方法,未知P和R,同时应用了采样和贝尔曼方程,可以从不完整的片段中学习,通过估计来更新估计
时间差分评价
时间差分策略评价算法
目的:给定策略 π π ,求其对应的值函数 vπ v π
增量式MC是从数据中重复采样,每得到一个路径更新一次回报值:
V(St)←V(St)+a(Gt−V(St)) V ( S t ) ← V ( S t ) + a ( G t − V ( S t ) )
时间差分算法(Temporal-difference,TD)使用估计的回报值 Rt+1+γV(St+1) R t + 1 + γ V ( S t + 1 ) 去更新值函数 V(St)(TD(0)) V ( S t ) ( T D ( 0 ) )
V(St)←V(St)+a(Rt+1+γV(St+1)−V(St)) V ( S t ) ← V ( S t ) + a ( R t + 1 + γ V ( S t + 1 ) − V ( S t ) )
其中 Rt+1+γV(St+1) R t + 1 + γ V ( S t + 1 ) 称为 TD目标, Rt+1+γV(St+1)−V(St) R t + 1 + γ V ( S t + 1 ) − V ( S t ) 称为 TD误差
TD VS. DP
DP利用了贝尔曼方程,全宽概率分布求解,TD也利用了贝尔曼方程,主要做了几点改动:
全宽备份 → → 样本备份,并去掉了期望符号
V(S)←R+γV(S