2020年10月_晴晴_Amanda

原创 RL策略梯度方法之(十八): Importance Weighted Actor-Learner Architecture (IMPALA)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 23:52:45 1197

原创 RL策略梯度方法之(十七): Stein Variational Policy Gradient (SVPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 23:49:38 1061

原创 RL策略梯度方法之(十六):Twin Delayed Deep Deterministic(TD3)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 23:15:07 1442

原创 RL策略梯度方法之(十五):SAC with Automatically Adjusted Temperature

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 18:43:10 563

原创 RL策略梯度方法之(十四):Soft Actor-Critic (SAC)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 18:11:42 4706

原创 RL策略梯度方法之(十三): actor-critic using Kronecker-factored trust region(ACKTR)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 00:57:53 659

原创 RL策略梯度方法之(十二): actor-critic with experience replay(ACER)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-07 00:51:13 1561

原创 RL策略梯度方法之(十一):proximal policy optimization (PPO)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-06 23:12:24 2488 4

原创 RL策略梯度方法之(十): Trust region policy optimization (TRPO)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-06 13:58:19 506

原创 RL策略梯度方法之(九):Multi-agent DDPG (MADDPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-05 23:21:31 3321 1

原创 RL策略梯度方法之(八): Distributed Distributional DDPG (D4PG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-05 23:06:54 2641 2

原创 RL策略梯度方法之(七): Deep Deterministic Policy Gradient(DDPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-05 22:24:08 2144

原创 RL策略梯度方法之(六): Deterministic policy gradient(DPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现

2020-10-05 17:09:22 1065

原创 RL策略梯度方法之(五): Advantage Actor-Critic(A2C)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析原理解析

2020-10-05 00:38:41 3602

原创 RL策略梯度方法之(四): Asynchronous Advantage Actor-Critic（A3C）

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现总体流程代码实现A3C\color{red}A3CA3C ：[ paper | code ]原理解析在A3C中，critic 学习值函数，同时多个 actor 并行训练，并不时地与全局参数同步。因此，A3C可以很好地用于并行训练。服务器的每个核都是一个线程，也就是一个平行世界

2020-10-04 15:10:32 746

原创 RL策略梯度方法之(三): Off-Policy Policy Gradient算法

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现算法流程代码实现原理解析算法实现算法流程代码实现

2020-10-04 14:06:36 1576 1

qq_38293297的博客

原创 RL策略梯度方法之(十八): Importance Weighted Actor-Learner Architecture (IMPALA)

原创 RL策略梯度方法之(十七): Stein Variational Policy Gradient (SVPG)

原创 RL策略梯度方法之(十六):Twin Delayed Deep Deterministic(TD3)

原创 RL策略梯度方法之(十五):SAC with Automatically Adjusted Temperature

原创 RL策略梯度方法之(十四):Soft Actor-Critic (SAC)

原创 RL策略梯度方法之(十三): actor-critic using Kronecker-factored trust region(ACKTR)

原创 RL策略梯度方法之(十二): actor-critic with experience replay(ACER)

原创 RL策略梯度方法之(十一):proximal policy optimization (PPO)

原创 RL策略梯度方法之(十): Trust region policy optimization (TRPO)

原创 RL策略梯度方法之(九):Multi-agent DDPG (MADDPG)

原创 RL策略梯度方法之(八): Distributed Distributional DDPG (D4PG)

原创 RL策略梯度方法之(七): Deep Deterministic Policy Gradient(DDPG)

原创 RL策略梯度方法之(六): Deterministic policy gradient(DPG)

原创 RL策略梯度方法之(五): Advantage Actor-Critic(A2C)

原创 RL策略梯度方法之(四): Asynchronous Advantage Actor-Critic（A3C）

原创 RL策略梯度方法之(三): Off-Policy Policy Gradient算法

空空如也

空空如也