强化学习之无模型方法二:时间差分

本文详细探讨了强化学习中的时间差分(TD)方法,包括TD的评价与优化策略,如Sarsa和Q-Learning。TD结合了动态规划和蒙特卡洛方法,通过采样和贝尔曼方程更新值函数,能在不完全信息下学习。相比于动态规划(DP)和蒙特卡洛(MC)方法,TD在偏差和方差之间取得平衡,能够在每一步中进行在线学习,尤其适用于连续性和片段性任务。
摘要由CSDN通过智能技术生成

时间差分方法(TD)是强化学习中最核心的也是最新奇的方法,混合了动态规划(DP)和蒙特卡洛方法(MC)

  • 和MC类似,TD从历史经验中学习
  • 和MDP类似,使用后继状态的值函数更新当前状态的值函数

TD属于无模型方法,未知P和R,同时应用了采样和贝尔曼方程,可以从不完整的片段中学习,通过估计来更新估计

时间差分评价

时间差分策略评价算法

目的:给定策略 π π ,求其对应的值函数 vπ v π
增量式MC是从数据中重复采样,每得到一个路径更新一次回报值:

V(St)V(St)+a(GtV(St)) V ( S t ) ← V ( S t ) + a ( G t − V ( S t ) )

时间差分算法(Temporal-difference,TD)使用估计的回报值 Rt+1+γV(St+1) R t + 1 + γ V ( S t + 1 ) 去更新值函数 V(St)(TD(0)) V ( S t ) ( T D ( 0 ) )
V(St)V(St)+a(Rt+1+γV(St+1)V(St)) V ( S t ) ← V ( S t ) + a ( R t + 1 + γ V ( S t + 1 ) − V ( S t ) )

其中 Rt+1+γV(St+1) R t + 1 + γ V ( S t + 1 ) 称为 TD目标 Rt+1+γV(St+1)V(St) R t + 1 + γ V ( S t + 1 ) − V ( S t ) 称为 TD误差

这里写图片描述

TD VS. DP

DP利用了贝尔曼方程,全宽概率分布求解,TD也利用了贝尔曼方程,主要做了几点改动:

  • 全宽备份 样本备份,并去掉了期望符号

    V(S)R+γV(S
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值