PARL教程--lesson4(Policy Gradient)
基于PARL教程的笔记目录基于策略梯度求解RLValue-Based & Policy-Basedsoftmax函数幕 Episode(一回合游戏)轨迹 Trajectory优化策略函数 πθ(s,a)\pi_\theta(s, a)πθ(s,a)策略梯度蒙特卡洛 MC 和时序差分 TD蒙特卡洛(回合更新)时序差分(单步更新)蒙特卡洛 REINFORCE代码model.pyalgorithm.pyagent.pytrain.py基于策略梯度求解RL策略近似、策略梯度之前使用函数拟合价值.
原创
2021-05-08 20:43:11 ·
542 阅读 ·
1 评论