百度强化学习训练营总结

百度强化学习训练营总结

PARL是百度公司开发的一个强化学习框架。作为一个机器学习小白,也是因为身边的同学推荐,才知道这个课程, 在这个课程上面了解到paddlepaddle 和 PARL 。作为一个不是计算机专业方向的学生,了解到机器学习的相关知识主要途径还是b乎。之前也只听过Tensorflow, PyTorch 以及 scikit-learn这些学习框架。 强化学习是机器学习的一个重要分支, 强化学习的三个个基本要素分别是智能体(Agent),环境(Environment)以及算法(Algorithm)。强化学习的主要思想是机器人(Agent) 和环境(Environment)的交互学习,其中 Agentaction会影响环境,环境返回rewardstate ,这个交互过程是一个马尔可夫决策过程。

1. PARL框架的特点

可复现性保证:我们提供了高质量的主流强化学习算法实现,严格地复现了论文对应的指标;

大规模并行支持:框架最高可支持上万个CPU的同时并发计算,并且支持多GPU强化学习模型的训练

可复用性强:用户无需自己重新实现算法,通过复用框架提供的算法可以轻松地把经典强化学习算法应用到具体的场景中;

良好扩展性:当用户想调研新的算法时,可以通过继承我们提供的基类可以快速实现自己的强化学习算法;

2. PARL框架的结构

PARL框架

PARL框架三大件分别是Model, Algorithm, Agent。

  • Model: 用来定义前向(Forward)网络,这通常是一个策略网络(Policy Network)或者一个值函数网络(Value Function),输入是当前环境状态(State)。
  • Algorithm: Algorithm 定义了具体的算法来更新前向网络(Model),也就是通过定义损失函数来更新Model。一个Algorithm包含至少一个Model
  • Agent: Agent 负责算法与环境的交互,在交互过程中把生成的数据提供给Algorithm来更新模型(Model),数据的预处理流程也一般定义在这里。

3. 强化学习的算法

本次学习接触到的强化学习的算法 SARSA, Q-Learning, DQN, DDPG。

3.1 表格型方法 SARSA 和 Q-Learning

前面提到强化学习让智能体通过与环境的交互学习解决问题,强化学习通常包括这么几个概念:

  • 状态 State (S)
  • 动作 Action (A)
  • 奖励 Reward ®

使用走迷宫的例子来表示

走迷宫
红色方框是我们的智能体,任务是要在4x4的迷宫中找到黄色圆圈的宝藏,并学习到达宝藏的最佳路径。如果以左上角的初始状态为S0,那么整个迷宫一共有16个状态(State)(从左到右从上到下分别是S0到S15)。智能体的**行动(Action)**有四个: 分别是向左(A1)向右(A2)向上(A3)和向下(A4)移动。如果找到黄色圆圈(宝藏)奖励(Reward)为1,掉入黑色陷阱奖励(Reward)为-1,其他地方为0。

Q表格

Q table A c t i o n 1 Action_1 Action1 A c t i o n 2 Action_2 Action2 A c t i o n 3 Action_3 Action3 A c t i o n 4 Action_4 Action4
S 0 S_0 S0 0 0 0 0
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值