百度PaddlePaddle强化学习七日打卡营
强化学习
- model-based
- model-free(value-based,policy-based)
DQN、DDPG、PG、PPO、ES、TD3、SAC、A2C、IMPALA、MADDPG
Agent的两种学习方案
- value-based
- policy-based( π θ ( a t ∣ s t ) \pi_\theta(a_t|s_t) πθ(at∣st))
PARL
快速搭建并行框架
- 在PARL中,并行仅需一个修饰符(parl.remote_class)
强化学习MDP四元组 < S , A , P , R > <S,A,P,R> <S,A,P,R>
MDP:马尔科夫决策过程
S:state 状态
A:action 动作
R:reward 奖励
P:probability 状态转移概率