百度强化7日打卡学习心得

百度七日强化学习链接视频:https://aistudio.baidu.com/aistudio/education/group/info/1335

首先很感谢百度提供了一个能学习强化学习的机会。课程安排也很合理,从浅到深的介绍,满足了大部分人的需求。通过这七日的学习,我不仅了解了强化学习的经典算法而且还动手训练了算法模型,更进一步地理解了强化学习可以解决哪些实际问题。

 

强化学习包含智能体和智能体所在的环境两部分,如下图,

智能体又要和环境进行交互,交互主要是指智能体的动作会根据环境的状态获得奖励或惩罚,如下图,

强化学习的应用也很广泛,如下图,

强化学习和其他学习的关系,如下图,

强化学习对比其他学习注重的是决策问题,通过智能体与周边环境的交互学会了如何能获得更多的奖励。

从这次学习当中,也了解到了parl,PARL(PAddlepaddle Reinfocement Learning)是百度推出的基于PaddlePaddle(飞桨)的深度强化学习框架,具有可复用性强、扩展性好、支持大规模并行计算等优点。

PARL除了用来开发强化学习算法,提供了十分便捷的Python多线程并行计算接口,可以单独拿来做运算加速。众所周知,Python由于GIL(全局锁)的存在,不能充分利用多核CPU实现真正意义的多线程并行运算。多进程虽然可以避免全局锁的问题,但进程间通讯会增加开发难度。PARL在底层解决了这些问题,用户在写代码时只需在需要并行计算的地方添加修饰符(@parl.remote_class),然后按照一般多线程的写法编程即可利用多CPU实现真正的并行化。这个真的很赞。

在提交强化学习作业时,如果pip install xxx模块很慢时,建议使用pip install xxx -i -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com可以加快pip模块下载安装

如果大家有算力,可以使用paddlegpu来训练模型,具体操作为

选择高级版运行环境

安装paddle-gpu

!pip install paddlepaddle-gpu==1.6.3.post107 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

如果训练意外中断,在train代码中可以加入agent.restore()从上一次中断的模型中找一个作为其实模型继续训练。

if os.path.exists(os.path.join('model_dir_3','steps_210863.ckpt')):
    agent.restore(os.path.join('model_dir_3','steps_210863.ckpt'))

最后,分享一些训练心得,学习率要和BATCH_SIZE一起调,BATCH_SIZE设置越大学习率要设置小一些,因为输入样本量越大可以防止出现局部最优,学习率此时设置小一点可以更好的让模型收敛,以上为我个人见解,如有问题,欢迎大家随时沟通!

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值