RL
Mia_compiling
邮箱[email protected] 欢迎交流!
展开
-
RL(七)——Policy Gradient Methods
Policy-based Reinforcement Learning 在之前的学习中,我们都是从 value function 里直接得到policy,比如说 e-greedy policy。 接下来,我们就要将 policy 参数化,parametrise the policy. 依然是model-free 使用这种 policy-based RL,相比之前的基于价值函数的方法,好处就是不需...原创 2020-04-15 13:52:33 · 172 阅读 · 0 评论 -
RL(六)——Value Fuction Approximation
The reason of using value function approximation The problems with large MDPs 表格型求解方法适用于有限个数状态动作的情况,想要求解比如西洋双路棋或者围棋这种状态动作无限多的情况,就需要使用函数逼近value function approximation。 Problems with laege MDPs: There ...原创 2020-04-05 20:16:21 · 252 阅读 · 0 评论