第三篇：AWS deepracer student三个经典reward function解析

郑昊玥( Henry）

已于 2022-05-16 16:15:33 修改

阅读量2.4k

点赞数 11

分类专栏： deepracer 机器学习人工智能文章标签： aws 人工智能机器学习 python 自动驾驶

于 2022-05-15 16:28:58 首次发布

本文链接：https://blog.csdn.net/shjrnrb/article/details/124781754

版权

本文详细解析了AWS Deepracer中三种经典的reward function：跟随中心线、保持在边界内以及防止锯齿状行驶。分别介绍了代码实现、解析及可能遇到的问题，强调了不同策略的优缺点和适用场景，为参赛者提供了深入理解与优化建议。

摘要由CSDN通过智能技术生成

前言

这是第三篇，如果你已经完成这篇内容可以看下一篇（赛道分析，函数思路，最优函数解析分享等内容）
同学们大家好，最近AI爆火，许多在校同学都与我一样想深入了解AI，于是来参加了deep racer student的比赛或尝试了解deepracer。
我能以总榜第三晋级也归功与以前积累的经验和向大佬的请教，现在关于deepracer的教程和博文很少，因此给我在前进路上带来了许多麻烦，所以我写下这篇文章希望能把经验分享给你，祝你成功。

一、follow the center line

1.代码

def reward_function(params):
    # Example of rewarding the agent to follow center line

    # Read input parameters
    track_width = params['track_width']
    distance_from_center = params['distance_from_center']

    # Calculate 3 markers that are at varying distances away from the center line
    marker_1 = 0.1 * track_width
    marker_2 = 0.25 * track_width
    marker_3 = 0.5 * track_width

    # Give higher reward if the car is closer to center line and vice versa
    if distance_from_center <= marker_1:
        reward = 1.0
    elif distance_from_center <= marker_2:
        reward = 0.5
    elif distance_from_center <= marker_3:
        reward = 0.1
    else:
        reward = 1e-3 # likely crashed/ close to off track

    return float(reward)