第四篇：AWS deepracer student，三大经典奖励函数reward function改进方法

最新推荐文章于 2024-07-15 13:03:48 发布

郑昊玥( Henry）

最新推荐文章于 2024-07-15 13:03:48 发布

阅读量2.9k

点赞数 7

分类专栏： deepracer 机器学习人工智能文章标签：人工智能自动驾驶机器学习 aws python

本文链接：https://blog.csdn.net/shjrnrb/article/details/124785792

版权

本文分享了在AWS DeepRacer Student比赛中优化奖励函数的三个关键方法：跟随中心线、保持边界和防止锯齿行驶。通过调整速度奖励和角度惩罚，以及结合防止锯齿行驶的策略，提升自动驾驶模型的性能。然而，跟随中心线的效果并不显著，而防止锯齿行驶和保持边界能带来一定的成绩改善。

摘要由CSDN通过智能技术生成

前言

这是第四篇，如果你已经完成这篇内容可以看下一篇（赛道分析，函数思路，最优函数解析分享等内容）
同学们大家好，最近AI爆火，许多在校同学都与我一样想深入了解AI，于是来参加了deep racer student的比赛或尝试了解deepracer。
我能以总榜第三晋级也归功与以前积累的经验和向大佬的请教，现在关于deepracer的教程和博文很少，因此给我在前进路上带来了许多麻烦，所以我写下这篇文章希望能把经验分享给你，祝你成功。

follow the center line

个人觉得这个改进后成绩也不乐观，但也可以尝试
我的思路是：
1.加对速度的奖励来提高速度
这里浅浅提一下，以后细讲

speed = params['speed']
SPEED_THRESHOLD = 0.8
reward = 1e-3
if speed < SPEED_THRESHOLD:
    reward *= 0.1
else:
    reward *= 2.0

以上是速度部分的代码

speed = params['speed']

这一部分提取数据：
提取出speed（速度）

最低0.47元/天解锁文章

郑昊玥( Henry）

关注

7
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录