Multi-step TD target
本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0
Multi-step TD target是对TD算法的一种改进。
- 注意:上面的Sarsa和Q-learning都是只包含了一个奖励 r t r_t rt,如果包含多个奖励,就是multi-step TD target