百度PaddlePaddle强化学习七日打卡营

bridgeqiqi

于 2020-06-27 11:22:37 发布

阅读量271

点赞数

分类专栏：学习笔记文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bridgeqiqi/article/details/106980031

版权

学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

百度PaddlePaddle强化学习七日打卡营

强化学习

model-based
model-free（value-based，policy-based）

DQN、DDPG、PG、PPO、ES、TD3、SAC、A2C、IMPALA、MADDPG

Agent的两种学习方案

value-based
policy-based( $\pi_\theta(a_t|s_t)$ )

在这里插入图片描述

PARL

快速搭建并行框架

在PARL中，并行仅需一个修饰符（parl.remote_class）

强化学习MDP四元组 $< S, A, P, R >$

MDP:马尔科夫决策过程
S:state 状态
A:action 动作
R:reward 奖励
P:probability 状态转移概率

在这里插入图片描述

在线学习VS离线学习

在这里插入图片描述

Sarsa-learn函数

在这里插入图片描述

离散动作VS连续动作

在这里插入图片描述

Policy-gradient

在这里插入图片描述

DQN

run_episode function

在这里插入图片描述

折扣因子 $\gamma$

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百度PaddlePaddle强化学习七日打卡营

百度PaddlePaddle强化学习七日打卡营强化学习Agent的两种学习方案PARL强化学习MDP四元组<S,A,P,R><S,A,P,R><S,A,P,R>在线学习VS离线学习Sarsa-learn函数离散动作VS连续动作Policy-gradientDQN ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200627111651123.JPG?x-oss-process=image/watermark,type_ZmFuZ3po
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。