强化学习——时序差分

相关概念

Prediction和Control

预测问题:

  • 输入:MDP 〈S,A,P,R,γ〉 和策略 π
  • 输出:状态值函数 V_{\pi } 或者状态动作值函数 q_{\pi }

控制问题

  • 输入:MDP 〈S,A,P,R,γ〉
  • 输出:最优状态值函数 V_{\ast } 或者最优状态动作值函数 q_{\ast },和最优策略 \pi _{\ast }

时序差分

  1. 特点:是免模型的,不需要马尔可夫决策过程的转移矩阵和奖励函数。此外,时序差分方法可以从不完整的回合中学习,
    并且结合了自举的思想。
  2. 目的:对于某个给定的策略π,在线(online)地算出它的价值函数V_{\pi },即一步一步地(step-by-step)算。 

一步时序差分(TD(0))

 step1:时序差分预测 

其中:R_{t+1} + \gamma V(S_{t+1}) 被称为时序差分目标(TD target),即回报值,时序差分目标是带衰减的未来奖励的总和。根据公式可以看出,在进行TD预测时,只需要等到跳转到下一个状态时,便可得知当前状态的状态值。

时序差分误差(TD error):R_{t+1} + \gamma V(S_{t+1})-V(S_{t})​​​​​​​

时序差分目标是估计有两个原因:
(1)时序差分方法对期望值进行采样;
(2)时序差分方法使用当前估计的V 而不是真实的V_{\pi }

n步时序差分(TD(n))

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值