强化学习—Multi-Step TD Target

最新推荐文章于 2024-09-14 16:43:45 发布

Tony Wey

最新推荐文章于 2024-09-14 16:43:45 发布

阅读量1k

点赞数 23

分类专栏：强化学习文章标签：人工智能强化学习

本文链接：https://blog.csdn.net/qq_38023194/article/details/141018183

版权

21 篇文章 2 订阅

订阅专栏

Multi-Step TD Target

Multi-step TD Target 是一种结合多步时间差分（TD）方法的目标计算方式，用于在强化学习中更新价值函数。这种方法不仅使用当前时间步的信息，还利用接下来多个时间步的信息来更新值函数，从而在某种程度上缓解单步更新中估计偏差较大的问题。

在标准的时间差分学习中，目标是基于单步回报计算的，而多步 TD 目标则基于多个时间步的累积回报。这种方法通过引入多个时间步的回报，权衡了短期和长期信息的使用，提供了更丰富的估计。

定义多步回报：
$G_t^{(n)} 是从当前时间步 t 开始的 n 步累积回报加上未来的估计值。公式为： \\G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+n}) \\其中，R_{t+1}, R_{t+2}, \ldots, R_{t+n} 是接下来的 n 步奖励， V(S_{t+n}) 是状态 S_{t+n} 的估计值。$
多步TD更新：
- 使用多步回报更新值函数 V ：
  $V(S_t) \leftarrow V(S_t) + \alpha \left( G_t^{(n)} - V(S_t) \right) \\ 其中，\alpha 是学习率。$