文章目录
前言
这是第二篇,如果你已经完成这篇内容可以看下一篇(创建模型,赛道分析,函数思路,最优函数解析分享等内容)
同学们大家好,最近AI爆火,许多在校同学都与我一样想深入了解AI,于是来参加了deep racer student的比赛或尝试了解deepracer。
我能以总榜第三晋级也归功与以前积累的经验和向大佬的请教,现在关于deepracer的教程和博文很少,因此给我在前进路上带来了许多麻烦,所以我写下这篇文章希望能把经验分享给你,祝你成功。
一,介绍deepracer student
1.简介
deepracer student是为学生设置的学习,比赛的网站
区别于正式的版本
1.注册更简单
2.免费提供十小时时间训练(每个账号),不可加钱买时长,但可以注册多个账号
3.训练是在云端进行,训练时网络不好不用担心,可以退出网站不会影响训练
4.对许多地方都有限制,详见下方内容
2.参数限制
student版本对许多可以更改的参数的做了限制
(1)对超参的调节做了限制
只可以调整算法一个超参(PPO和SAC)
具体两者定义和区别有些复杂,可以搜索相关文章
student上官方解释:
PPO:Proximal Policy Optimization (PP0)
Needs more data to produce consistent results
SAC:Soft Actor Critic (SAC)
Uses less data but produces less consistent results
PPO倾向于一步一步的达到最优步骤
经过测试个人得出的结论是PPO比SAC好用(同一function训练10小时后PPO为3分左右,SAC为6分)
当然这与我训练时长和函数可能不符合SAC条件有关系,两者都是优秀的机器学习算法,不能说明SAC不好,大家也可以自行尝试
(2)对速度做了限制
经过计算(目前排名第一的选手三圈2分25秒,Ace speedway赛道总长50.3米,计算可得速度为1m/s左右)
网络上搜索信息有限,但根据对参赛选手的询问以及业内人士和