目录
本文为Datawhale《深度强化学习基础与实践(二)》学习总结。
以下为本文参考资料:
- Reinforcement Learning: An Introduction
- 动手学强化学习(https://hrl.boyuai.com)
- JoyRL(datawhalechina/joyrl-book (github.com))
- 神经网络与深度学习,邱锡鹏
今天来整理一下REINFORCE、带基线函数的REINFORCE、AC、A2C、A3C算法。
一、REINFORCE算法
基于轨迹的梯度公式(含折扣因子):