第四篇:AWS deepracer student,三大经典奖励函数reward function改进方法

本文分享了在AWS DeepRacer Student比赛中优化奖励函数的三个关键方法:跟随中心线、保持边界和防止锯齿行驶。通过调整速度奖励和角度惩罚,以及结合防止锯齿行驶的策略,提升自动驾驶模型的性能。然而,跟随中心线的效果并不显著,而防止锯齿行驶和保持边界能带来一定的成绩改善。
摘要由CSDN通过智能技术生成


前言

这是第四篇,如果你已经完成这篇内容可以看下一篇(赛道分析,函数思路,最优函数解析分享等内容)
同学们大家好,最近AI爆火,许多在校同学都与我一样想深入了解AI,于是来参加了deep racer student的比赛或尝试了解deepracer。
我能以总榜第三晋级也归功与以前积累的经验和向大佬的请教,现在关于deepracer的教程和博文很少,因此给我在前进路上带来了许多麻烦,所以我写下这篇文章希望能把经验分享给你,祝你成功。

follow the center line

个人觉得这个改进后成绩也不乐观,但也可以尝试
我的思路是:
1.加对速度的奖励来提高速度
这里浅浅提一下,以后细讲

speed = params['speed']
SPEED_THRESHOLD = 0.8
reward = 1e-3
if speed < SPEED_THRESHOLD:
    reward *= 0.1
else:
    reward *= 2.0

以上是速度部分的代码

speed = params['speed']

这一部分提取数据:
提取出speed(速度)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郑昊玥( Henry)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值