Brisingrwp-CSDN博客

原创 Policy Gradient 之 A3C 与 A2C 算法

Policy Gradient 之 A3C 与 A2C 算法MotivationBackground Motivation 之前参加了学习强化学习以及PARL框架的训练营。这次是上次学习的一个拓展（“你学习，我送书，一起来爬RL的大山”）。这里主要来研究一下Policy Gradient下面的一个非常重要的算法A3C。 Background Policy Gradient方法是对立于Value-based方法的另外一大类解决强化学习问题的算法。Policy Gradient下属有许多重要的算法，比如最基本的

2020-07-24 15:20:23 2548

原创百度PARL强化学习入门7日营

百度PARL强化学习入门7日营笔记强化学习初探表格型方法 (Tabular Solution Methods)MDP和TD方法SarsaQ-learning神经网络+Q-learning: DQN策略梯度 (Policy Gradient)DDPG (Deep Deterministic Policy Gradient)感想后续笔记强化学习初探强化学习(Reinforcement Learning) 是机器学习的一个子领域，与监督学习以及非监督学习是平行的概念。与监督学习和非监督学习不同，强化学习并没

2020-06-27 08:31:01 950

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Policy Gradient 之 A3C 与 A2C 算法

原创 百度PARL强化学习入门7日营

空空如也

空空如也

原创百度PARL强化学习入门7日营