百度强化7日打卡学习心得

最新推荐文章于 2024-07-12 13:45:39 发布

在学人员

最新推荐文章于 2024-07-12 13:45:39 发布

阅读量384

点赞数

文章标签：百度强化学习人工智能

本文链接：https://blog.csdn.net/u014300898/article/details/106932278

版权

百度七日强化学习链接视频：https://aistudio.baidu.com/aistudio/education/group/info/1335

首先很感谢百度提供了一个能学习强化学习的机会。课程安排也很合理，从浅到深的介绍，满足了大部分人的需求。通过这七日的学习，我不仅了解了强化学习的经典算法而且还动手训练了算法模型，更进一步地理解了强化学习可以解决哪些实际问题。

强化学习包含智能体和智能体所在的环境两部分，如下图，

智能体又要和环境进行交互，交互主要是指智能体的动作会根据环境的状态获得奖励或惩罚，如下图，

强化学习的应用也很广泛，如下图，

强化学习和其他学习的关系，如下图，

强化学习对比其他学习注重的是决策问题，通过智能体与周边环境的交互学会了如何能获得更多的奖励。

从这次学习当中，也了解到了parl，PARL(PAddlepaddle Reinfocement Learning)是百度推出的基于PaddlePaddle(飞桨）的深度强化学习框架，具有可复用性强、扩展性好、支持大规模并行计算等优点。

PARL除了用来开发强化学习算法，提供了十分便捷的Python多线程并行计算接口，可以单独拿来做运算加速。众所周知，Python由于GIL(全局锁)的存在，不能充分利用多核CPU实现真正意义的多线程并行运算。多进程虽然可以避免全局锁的问题，但进程间通讯会增加开发难度。PARL在底层解决了这些问题，用户在写代码时只需在需要并行计算的地方添加修饰符(@parl.remote_class)，然后按照一般多线程的写法编程即可利用多CPU实现真正的并行化。这个真的很赞。

在提交强化学习作业时，如果pip install xxx模块很慢时，建议使用pip install xxx -i -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com可以加快pip模块下载安装

如果大家有算力，可以使用paddlegpu来训练模型，具体操作为

选择高级版运行环境

安装paddle-gpu

!pip install paddlepaddle-gpu==1.6.3.post107 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

如果训练意外中断，在train代码中可以加入agent.restore()从上一次中断的模型中找一个作为其实模型继续训练。

if os.path.exists(os.path.join('model_dir_3','steps_210863.ckpt')):
    agent.restore(os.path.join('model_dir_3','steps_210863.ckpt'))

最后，分享一些训练心得，学习率要和BATCH_SIZE一起调，BATCH_SIZE设置越大学习率要设置小一些，因为输入样本量越大可以防止出现局部最优，学习率此时设置小一点可以更好的让模型收敛，以上为我个人见解，如有问题，欢迎大家随时沟通！

在学人员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百度强化7日打卡学习心得

百度七日强化学习链接视频：https://aistudio.baidu.com/aistudio/education/group/info/1335首先很感谢百度提供了一个能学习强化学习的机会。课程安排也很合理，从浅到深的介绍，满足了大部分人的要求。通过这七日的学习，我不仅了解了强化学习的经典算法而且还动手训练了算法模型，更进一步地理解了强化学习可以解决哪些实际问题。强化学习包含智能体和智能体所在的环境两部分，如下图，智能体又要和环境进行交互，交互主要是指智能体的动作会根据环境的状态获.
复制链接

扫一扫