强化学习相关的TD算法改进的介绍。此处笔记根据B站课程,王树森老师的强化学习记录而来。9.Multi-Step TD Target (TD Learning 3_3)(Av374239425,P9)_哔哩哔哩_bilibili
1.回顾Sarsa和Q-Learning
Sarsa和Q-Learning都是TD算法的一种,在TD target表达式中,r(t)只有一项,Multi-Step的改进思路就是在计算TD Target时考虑多步的step。
2.Multi-Step TD算法
这种多步的TD算法会使效果变得更好。m=1时,就退化为普通的TD算法,m=1是multi-Step 的特殊情况。多步回报的定义如下,从U(t)与U(t+1)的关系进行推导。
推导多步回报的TD Target:
3.One-Step和Multi-Step的区别
Multi-Step多步奖励,更稳定,偏差更小,更接近真实值。m是超参,合适的值能带来性能的提升。