本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解
参考博客:感谢博主
目录
1.蒙特卡洛与时序差分
- 蒙特卡洛算法完成一个回合(epsiode),然后进行一次学习learn(),回合更新。
- 完整运行一个 episode,可得到每一个step的reward从而可以知道每一步 step 的未来总收益
- 例子:REINFORCE算法
- 时序差分算法在每一步(step)进行更新,单步更新。
- 例子:Actor-Critic
本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解
参考博客:感谢博主
目录