第二篇(基础):deepracer student介绍,参数限制,速度限制,限制解决办法,与正式版本区别


前言

这是第二篇,如果你已经完成这篇内容可以看下一篇(创建模型,赛道分析,函数思路,最优函数解析分享等内容)
同学们大家好,最近AI爆火,许多在校同学都与我一样想深入了解AI,于是来参加了deep racer student的比赛或尝试了解deepracer。
我能以总榜第三晋级也归功与以前积累的经验和向大佬的请教,现在关于deepracer的教程和博文很少,因此给我在前进路上带来了许多麻烦,所以我写下这篇文章希望能把经验分享给你,祝你成功。


一,介绍deepracer student

1.简介

deepracer student是为学生设置的学习,比赛的网站
区别于正式的版本
1.注册更简单

2.免费提供十小时时间训练(每个账号),不可加钱买时长,但可以注册多个账号

3.训练是在云端进行,训练时网络不好不用担心,可以退出网站不会影响训练

4.对许多地方都有限制,详见下方内容

2.参数限制

student版本对许多可以更改的参数的做了限制

(1)对超参的调节做了限制
只可以调整算法一个超参(PPO和SAC)

具体两者定义和区别有些复杂,可以搜索相关文章

student上官方解释:
PPO:Proximal Policy Optimization (PP0)
Needs more data to produce consistent results
SAC:Soft Actor Critic (SAC)
Uses less data but produces less consistent results

PPO倾向于一步一步的达到最优步骤

经过测试个人得出的结论是PPO比SAC好用(同一function训练10小时后PPO为3分左右,SAC为6分)
当然这与我训练时长和函数可能不符合SAC条件有关系,两者都是优秀的机器学习算法,不能说明SAC不好,大家也可以自行尝试

(2)对速度做了限制
经过计算(目前排名第一的选手三圈2分25秒,Ace speedway赛道总长50.3米,计算可得速度为1m/s左右)

网络上搜索信息有限,但根据对参赛选手的询问以及业内人士和

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郑昊玥( Henry)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值