强化学习7日打卡营—百度的世界冠军带你从零实践——学习心得

一、7日打卡营的背景介绍

1.1 本次强化学习课程的链接

https://aistudio.baidu.com/aistudio/education/group/info/1335

1.2 报名参加的原因

首先呢,之前就看到百度就推出过1个有个关于《青春有你2》主题的python的课程,那次因为有别的事耽搁了,就没参加。这次看到又有1个关于强化学习的新课程,可以和大家一起参加可以互相交流和学习,比较有动力,所以就直接报名参加了,只要登录百度的账号就行了。
要是错过了,还想参加的,可以去上面的连接哈,还可以参加的,直播的视频也在上面可以看。
在这里插入图片描述

二、课程的介绍

2.1 老师的介绍

这次课程呢,主要是由科科老师讲的,每天晚上在B站直播讲课,讲的很好很精彩,作业和其他事情都是肖芮班主任负责的,非常认真和负责。
在这里插入图片描述

2.2 有1次预习课+5次主课+1次闭营仪式

首先是1个预习课,主要是安装一些环境和熟悉AIstudio平台的使用。
然后是5天的正课了,每晚上完课就会发布作业和直播课的录制版本,供大家复习课程内容。最后是闭营直播,有科科老师和班班的彩蛋。
在这里插入图片描述

2.3 本次课程的目标

2.3.1 带领初学者入门强化学习。

2.3.2 学会强化学习经典算法:Q-learning、Sarsa、DQN、Policy Gradient、DDPG。

2.3.3 学习本门课程后,可学会使用RL玩模拟游戏,玩四轴飞行器(控制悬停)。

2.4 本次课程的大纲

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、几次作业的部分代码

3.1 前3次的作业

前几次的作业不很难,大家都差不多的,运行时间也比较短,这里我就不献丑了。在这里插入图片描述

3.2 第4次的作业

在这里插入图片描述
在这里插入图片描述
和打乒乓球有关,我就分享一下我改了的地方,我主要就改了1个学习率,调试了好多个学习率。在这里插入图片描述
原始的学习率是0.001,试过好多个学习率,最后一次用的是0.0025。因为这个程序运行一轮 3000次Episode需要12-14个小时,所以可以根据刚开始的趋势来判断一下是否需要继续训练,趋势不好的就改学习率。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
硬是运行到交作业的前21分钟。

3.3 第5次的作业

第5次是大作业,四轴飞行器的控制,让飞行器能够稳定在空中。
在这里插入图片描述
在这里插入图片描述
这里也是就改了学习率,有的大佬还改了神经网络的结构什么的,各位可以尝试一下。最后,发现,用原来的学习率就挺好的了,可以收敛,就是很慢。
在这里插入图片描述
然后,讨论区有大佬分享了一个新方法,创立5维度的电压输出,使得无人机更快速的达到稳定。第一个是主电压量,后面四个是次要的分量,为了使得他们的大小相近,更快速的收敛。
在这里插入图片描述
这个大作业也是运行了很久很久,放了一晚上,早上醒来看结果。其中有一次被电脑更新打断了,很可惜,一吃完晚饭去看,发现电脑都重启了,= =。
在这入图片描述
在这里插入图片描述
最后的总成绩的名单:
在这里插入图片描述

四、学习心得

4.1 最后一个版块,是学习心得了,强化学习确实很好玩,可以针对很多游戏和其他场景。
4.2 首先,很感谢肖芮老师和科科老师这几天的教学,让大家了这么一个强化学习的快餐,让大家对强化学习有了更直观的认识。
4.3 通过这门课,也对强化学习框架PARL、Qlearning、DQN、PG、DDPG等算法有了初步的认识,后续有时间会继续对上面的知识进行一个复习。
4.4 这门课让我感受最大的就是调参方面的了,可以在AIstudio平台上开3个任务,同时运行,设置不同的参数,最后来对比,调参其实还是有难度的,不仅仅需要对算法、框架、背景等有清晰的认识,还要知道哪些参数可以调节,怎么调节,调大还是调小才会对结果有帮助,不然盲目地去调只能是浪费时间,碰运气了,这还真是一门学问。
4.5 学习的三大原则——保证时间+学会坚持+勤奋钻研
4.6 炼丹的进阶之路:
demo侠——调参侠——懂原理侠——懂原理+能改模型细节侠——超大数据操控侠——模型/框架构架师
4.7 最后,谢谢各位老师这几天的辛苦付出了,谢谢阅读,有错误的话欢迎各位大佬提出来,谢谢了。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值