第二篇（基础）：deepracer student介绍，参数限制，速度限制，限制解决办法，与正式版本区别

郑昊玥( Henry）

已于 2022-05-16 11:17:39 修改

阅读量1.4k

点赞数 6

分类专栏： deepracer 人工智能机器学习文章标签：人工智能机器学习 aws python 自动驾驶

于 2022-05-15 13:58:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shjrnrb/article/details/124780788

版权

文章目录

前言
一，介绍deepracer student
二，基础概念
- 1.过拟合及收敛
- 2.英文单词翻译
三，下篇预告

前言

这是第二篇，如果你已经完成这篇内容可以看下一篇（创建模型，赛道分析，函数思路，最优函数解析分享等内容）
同学们大家好，最近AI爆火，许多在校同学都与我一样想深入了解AI，于是来参加了deep racer student的比赛或尝试了解deepracer。
我能以总榜第三晋级也归功与以前积累的经验和向大佬的请教，现在关于deepracer的教程和博文很少，因此给我在前进路上带来了许多麻烦，所以我写下这篇文章希望能把经验分享给你，祝你成功。

一，介绍deepracer student

1.简介

deepracer student是为学生设置的学习，比赛的网站
区别于正式的版本
1.注册更简单

2.免费提供十小时时间训练（每个账号），不可加钱买时长，但可以注册多个账号

3.训练是在云端进行，训练时网络不好不用担心，可以退出网站不会影响训练

4.对许多地方都有限制，详见下方内容

2.参数限制

student版本对许多可以更改的参数的做了限制

（1）对超参的调节做了限制
只可以调整算法一个超参（PPO和SAC）

具体两者定义和区别有些复杂，可以搜索相关文章

student上官方解释：
PPO：Proximal Policy Optimization (PP0)
Needs more data to produce consistent results
SAC：Soft Actor Critic (SAC)
Uses less data but produces less consistent results

PPO倾向于一步一步的达到最优步骤

经过测试个人得出的结论是PPO比SAC好用（同一function训练10小时后PPO为3分左右，SAC为6分）
当然这与我训练时长和函数可能不符合SAC条件有关系，两者都是优秀的机器学习算法，不能说明SAC不好，大家也可以自行尝试

（2）对速度做了限制
经过计算（目前排名第一的选手三圈2分25秒，Ace speedway赛道总长50.3米，计算可得速度为1m/s左右）

网络上搜索信息有限，但根据对参赛选手的询问以及业内人士和

最低0.47元/天解锁文章

郑昊玥( Henry）

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
第二篇（基础）：deepracer student介绍，参数限制，速度限制，限制解决办法，与正式版本区别

deepracer简介，reward function大致原理，deepracer student的限制及解决思路，英文单词翻译及基础概念，下篇：三个官方function解析
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

郑昊玥( Henry） 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。