第三篇:AWS deepracer student三个经典reward function解析

本文详细解析了AWS Deepracer中三种经典的reward function:跟随中心线、保持在边界内以及防止锯齿状行驶。分别介绍了代码实现、解析及可能遇到的问题,强调了不同策略的优缺点和适用场景,为参赛者提供了深入理解与优化建议。
摘要由CSDN通过智能技术生成


前言

这是第三篇,如果你已经完成这篇内容可以看下一篇(赛道分析,函数思路,最优函数解析分享等内容)
同学们大家好,最近AI爆火,许多在校同学都与我一样想深入了解AI,于是来参加了deep racer student的比赛或尝试了解deepracer。
我能以总榜第三晋级也归功与以前积累的经验和向大佬的请教,现在关于deepracer的教程和博文很少,因此给我在前进路上带来了许多麻烦,所以我写下这篇文章希望能把经验分享给你,祝你成功。


一、follow the center line

1.代码

def reward_function(params):
    # Example of rewarding the agent to follow center line

    # Read input parameters
    track_width = params['track_width']
    distance_from_center = params['distance_from_center']

    # Calculate 3 markers that are at varying distances away from the center line
    marker_1 = 0.1 * track_width
    marker_2 = 0.25 * track_width
    marker_3 = 0.5 * track_width

    # Give higher reward if the car is closer to center line and vice versa
    if distance_from_center <= marker_1:
        reward = 1.0
    elif distance_from_center <= marker_2:
        reward = 0.5
    elif distance_from_center <= marker_3:
        reward = 0.1
    else:
        reward = 1e-3 # likely crashed/ close to off track

    return float(reward)

2.解析

def reward_function(params):

创建一个函数

 track_width = params
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郑昊玥( Henry)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值