【强化学习】 时序差分TD error的通俗理解

引用:https://www.youtube.com/watch?v=jflq6vNcZyA&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU&index=2


在我们优化dqn的时候,损失函数式TD error。

那么为什么可以用这样的方式进行优化呢。

这里有个例子,就是最开始模型预估 NYC 到 Atilanta的路程时间是1000分钟,然后我们实际从NYC到DC走了300分钟,并且模型预估DC到atlanta需要600分钟,那么这里面NYC到DC是真实的时间,所以预估结果和真实结果是有差距的。

所以也可以理解为最开始模型预测NYC到DC是要花400分钟的,但是现在实际时间是300分钟,所以算法是要让预计时间和实际时间相等,如果要计算mse loss,所以这里是让预估时间趋向真实时间。

所以在强化学习中,DQN最后是用r + gamma*Q 作为target是一个道理。这里的r就是真实值。

 

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
时序差分强化学习(Temporal Difference Reinforcement Learning, TDRL)是一类强化学习算法,结合了动态规划和蒙特卡洛方法的思想。它通过使用经验数据进行增量式的更新,同时利用了当前和未来的估计值来逼近最优值函数。 时序差分强化学习方法的核心思想是通过估计值函数的差分来更新值函数的估计值。在每个时间步,智能体观察到当前状态、选择动作、观察到下一个状态和收到奖励。然后,根据差分误差(TD误差)来更新值函数的估计值。 TD误差定义为当前状态下的估计值与下一个状态的估计值之差加上即时奖励。TD误差可以表示为: TD_error = R + γV(s') - V(s) 其中,R是即时奖励,V(s)是当前状态s的估计值,V(s')是下一个状态s'的估计值,γ是折扣因子,用于衡量未来奖励的重要性。 根据TD误差,可以使用不同的更新规则来更新值函数的估计值。常见的时序差分强化学习算法包括以下几种: 1. SARSA(State-Action-Reward-State-Action):SARSA算法使用状态-动作对的估计值来更新Q值函数的估计值。在每个时间步,智能体根据当前策略选择动作,观察到下一个状态和奖励,并根据TD误差来更新Q值函数的估计值。 2. Q-learning:Q-learning算法也是一种基于TD误差的更新规则,但它使用了下一个状态的最大估计值来更新Q值函数的估计值。在每个时间步,智能体根据当前策略选择动作,观察到下一个状态和奖励,并通过TD误差和最大估计值来更新Q值函数的估计值。 3. TD(λ):TD(λ)算法是一种使用λ折扣因子的时序差分强化学习算法。它通过考虑未来多个时间步的估计值来更新值函数的估计值。TD(λ)算法将过去若干时间步的TD误差进行加权求和,并根据加权和来更新值函数的估计值。 时序差分强化学习方法具有较高的效率和适应性,可以在每个时间步骤中进行更新,不需要等到任务结束后才进行更新。它能够快速收敛到最优策略,并且可以处理具有部分可观测性和连续状态空间的问题。该方法在许多领域中都有广泛的应用,如机器人控制、游戏智能、自动驾驶等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值