百度强化学习7日打卡训练营心得感悟

最新推荐文章于 2024-08-25 23:34:37 发布

a31543754

最新推荐文章于 2024-08-25 23:34:37 发布

阅读量384

点赞数 1

文章标签：深度学习神经网络强化学习 paddlepaddle

本文链接：https://blog.csdn.net/a31543754/article/details/106891582

版权

百度强化学习7日打卡训练营心得感悟

学习课程的起因

去年10月份实习的时候，接到了目标检测的项目，使用了百度EasyDL的离线SDK模型，后来互联网大会看到了飞桨平台发布，准备学习，今年4月份看到了AI+Python的课程，加入课程但是因为做毕业设计忙不过来，就没有学习，这次刚好答辩完交了毕设论文，看到开课强化学习，同学毕设有做强化学习DQN的，就像学一下，毕设做的人脸识别，有一点深度学习的基础，所以毫不犹豫的加入课程，跟着科科老师学习强化学习，为以后的学习和工作打下基础。

本次学到的知识及课程内容

课程学到了Parl框架的使用，以及一些主流算法的项目复现，通过看直播课讲解，做作业补全代码和调参等过程，对基于表格型方法、基于神经网络方法、基于策略梯度和基于连续动作几个课程的算法有了一些了解，学到了很多知识，为以后的学习打下了基础。
在这里插入图片描述
1.课程一：强化学习初印象
主要内容：(1)强化学习与深度学习、机器学习等的关系；(2)RL的核心思想；(3)强化学习的分类；(4)强化学习的框架等。
作业：搭建环境运行Parl
2.课程二：基于表格型方法求解RL
主要内容：(1)MDP四元组和Q表格；(2)强化的概念和TD更新；(3)迷宫游戏（SARS算法）；(4)迷宫游戏（Q-learning算法）。
作业：迷宫游戏（SARSA算法/Q-learning算法）
3.课程三：基于神经网络方法求解RL
主要内容：(1)函数逼近与神经网络 (2) DQN算法原理及代码和结果（CartPole游戏）。
作业：DQN算法解决MountainCar游戏
4.课程四：基于策略梯度方法求解RL
主要内容：(1)随即策略与策略梯度；(2)PG算法及代码和结果（CartPole游戏）
作业：PG算法解决Pong游戏
5.课程五：基于连续动作空间方法求解RL
主要内容：(1)连续动作空间；(2)DDPG算法及代码和结果（CartPole游戏）
作业：四轴飞行器悬浮

课后感悟

通过跟着科科老师的课程讲解，对强化学习有了初步的认识，也对Ai Studio开发环境和paddlepaddle框架有了一定的了解，每天赠送的算力卡太香了，本地装上paddle框架后也会继续使用Ai Studio开发。
经过这次课程，代表着对强化学习的研究已经上路，为以后的学习打下了坚实的基础，看到老师举得各种例子，知道了强化学习的方向很广泛，以后也会争取在工作中用到强化学习和parl框架。已经把parl分享给同学和舍友。学习群的氛围很好，得到了很多帮助，希望以后能和同学们再次参加下一次的训练营课程。
感谢同学们，感谢芮芮班主任，感谢科科老师！

笔记备份（附大佬链接以备复习之用）

接下来的时间也会继续看课程回放，记笔记并分享出来，输出才能更好的理解知识，现在这里备份一下大佬们的笔记，用来接下来的复习和学习。
PS：已经关注各位大佬的主页，各位大佬的主页也有其他课节的笔记。
Tiny Tony 伯克利大佬的笔记分享
 三岁学编程大佬的笔记分享1
三岁学编程大佬的笔记分享2
三岁学编程大佬的笔记分享3
三岁学编程大佬的笔记分享4
三岁学编程大佬的笔记分享5
作者：AItrust
作者：烟笼寒水月笼沙。
作者：Mr.郑先生_

a31543754

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百度强化学习7日打卡训练营心得感悟

强化学习7日打卡训练营心得感悟学习课程的起因本次学到的知识功能快捷键学习课程的起因去年10月份实习的时候，接到了目标检测的项目，使用了EasyDl的离线SDK，后来看到了飞桨平台，准备学习，4月份看到了AI+Python的课程，加入课程但是因为做毕业设计忙不过来，就没有学习，这次刚好答辩完交了毕设论文，看到开课强化学习，同学毕设有做强化学习DQN的，就像学一下，初窥门径，毕设做的人脸识别，有一点深度学习的基础，所以毫不犹豫的加入课程，跟着科科老师学习强化学习，为以后的学习和工作打下基础。本次学到的知识
复制链接

扫一扫