百度强化学习训练营总结

最新推荐文章于 2024-07-12 16:21:48 发布

anuowu

最新推荐文章于 2024-07-12 16:21:48 发布

阅读量382

点赞数 2

分类专栏：机器学习文章标签：深度学习强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anuowu/article/details/105521388

版权

百度强化学习训练营总结

PARL是百度公司开发的一个强化学习框架。作为一个机器学习小白，也是因为身边的同学推荐，才知道这个课程，在这个课程上面了解到paddlepaddle 和 PARL 。作为一个不是计算机专业方向的学生，了解到机器学习的相关知识主要途径还是b乎。之前也只听过Tensorflow， PyTorch 以及 scikit-learn这些学习框架。强化学习是机器学习的一个重要分支，强化学习的三个个基本要素分别是智能体（Agent），环境(Environment)以及算法（Algorithm)。强化学习的主要思想是机器人(Agent) 和环境(Environment)的交互学习，其中 Agent 的 action会影响环境，环境返回reward 和state ，这个交互过程是一个马尔可夫决策过程。

1. PARL框架的特点

可复现性保证：我们提供了高质量的主流强化学习算法实现，严格地复现了论文对应的指标；

大规模并行支持：框架最高可支持上万个CPU的同时并发计算，并且支持多GPU强化学习模型的训练

可复用性强：用户无需自己重新实现算法，通过复用框架提供的算法可以轻松地把经典强化学习算法应用到具体的场景中；

良好扩展性：当用户想调研新的算法时，可以通过继承我们提供的基类可以快速实现自己的强化学习算法；

2. PARL框架的结构

PARL框架

PARL框架三大件分别是Model, Algorithm, Agent。

Model: 用来定义前向(Forward)网络，这通常是一个策略网络(Policy Network)或者一个值函数网络(Value Function)，输入是当前环境状态(State)。
Algorithm: Algorithm 定义了具体的算法来更新前向网络(Model)，也就是通过定义损失函数来更新Model。一个Algorithm包含至少一个Model。
Agent: Agent 负责算法与环境的交互，在交互过程中把生成的数据提供给Algorithm来更新模型(Model)，数据的预处理流程也一般定义在这里。

3. 强化学习的算法

本次学习接触到的强化学习的算法 SARSA, Q-Learning, DQN, DDPG。

3.1 表格型方法 SARSA 和 Q-Learning

前面提到强化学习让智能体通过与环境的交互学习解决问题，强化学习通常包括这么几个概念：

状态 State (S)
动作 Action （A）
奖励 Reward ®

使用走迷宫的例子来表示

走迷宫
红色方框是我们的智能体，任务是要在4x4的迷宫中找到黄色圆圈的宝藏，并学习到达宝藏的最佳路径。如果以左上角的初始状态为S0，那么整个迷宫一共有16个状态(State)（从左到右从上到下分别是S0到S15）。智能体的**行动（Action）**有四个: 分别是向左(A1)向右(A2)向上(A3)和向下(A4)移动。如果找到黄色圆圈(宝藏)奖励(Reward)为1，掉入黑色陷阱奖励(Reward)为-1，其他地方为0。

Q表格

Q table	$Action_1$	$Action_2$	$Action_3$	$Action_4$
$S_0$	0	0	0	0

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
百度强化学习训练营总结

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
复制链接

扫一扫

专栏目录

anuowu CSDN认证博客专家 CSDN认证企业博客

码龄7年

14: 原创

21万+: 周排名

118万+: 总排名

9931: 访问

: 等级

167: 积分

2: 粉丝

13: 获赞

3: 评论

44: 收藏

私信

关注

热门文章

分类专栏

最新评论

c++ return * this的理解
m0_64281996: 因为对象可能包含多个成员（可能有很多个值），所以只能返回对象本身
c++ return * this的理解
不会C++的小白: this 是指针，那么，*this 是指向该地址的值吗，值的话，为什么是本体啊
百度强化学习训练营总结
anuowu: [code=cpp] std::cout<< "hhhhh"<<std::endl; [/code]

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。