用于强化学习的自动驾驶仿真场景highway-env(3): rewards,graphics

用于强化学习的自动驾驶仿真场景highway-env(2): obs,action,dynamics中,我们详细说明仿真环境中的环境如何构建, 车辆的action都有哪些,如何对车辆进行运动学建模以及进行相应的横纵向控制。

本文,我们来说明用于强化学习的奖励机制,以及整个仿真环境构建的图形学基础。

I、Rewards

选择合适的奖励function来驱动实现最优的驾驶行为,这不是简单的事情。

reward机制定义在_reward() method中。

most environment

在大多数的场景中,我们通常关注两个主要特征:

  • 时间
  • 避障

因此,我们可以设计Reward funciotn如下所示:

R ( s , a ) = a ∗ v − v m i n v m a x − v m i n − b ∗ c o l l i s i o n R(s,a) = a*\frac{v-v_{min}}{v_{max}-v{min}}-b*collision R(s,a)=avmaxvminvvminbcollision

具体参数含义显而易见。

reward的正则化也很有必要。尤其是在deep reinforcement learning

goal environments

在parking 场景,奖励需要根据goal来制定。

R ( s , a ) = − ∣ ∣ s − s g ∣ ∣ W , p p − b ∗ c o l l i s i o n R(s,a) = -||s-s_{g}||^p_{W,p}-b*collision R(s,a)=ssgW,ppbcollision

其中 S g S_g Sg的状态表示,不包含速度,仅包含位置和朝向。

使用p-norm而不是欧氏距离来度量,目的是可以实现narrower spike of reward(较窄的奖励峰值)

II、Graphics

图形化的实现,需要以来pygame.

在生成window的时候,通过env.render()实现。
更新win的时候,需要用env.reset()
举个例子:

env = gym.make("roundabout-v0")
env.configure({
    "screen_width": 640,
    "screen_height": 480
})
env.reset()
env.render()

输出的效果如下:

在这里插入图片描述

  • 1
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
highway-env是一种基于OpenAI Gym的Python环境,用于开发和测试自动驾驶系统的强化学习算法。其官方文档为开发者提供了必要的指南和说明,以帮助他们更好地了解和使用highway-env。 官方文档包含了对highway-env的介绍,包括其设计目标和使用场景。它解释了highway-env的核心概念,例如车道、车辆、动作和观察空间。文档还提供了一些基本概念和概述,以帮助开发者快速入门。 文档详细说明了如何安装和配置highway-env环境。它提供了安装所需的依赖项列表,并指导用户如何在Python环境中安装和设置highway-env。这有助于确保开发者能够正确地配置环境并准备好开始使用。 官方文档还介绍了highway-env中可用的不同类型的车辆和代理。它解释了如何使用不同的代理算法,例如DQN、PPO等,来构建和训练智能代理去驾驶车辆。此外,文档还介绍了各种可用的观察空间和动作空间,并给出了如何自定义它们的指导。 此外,文档还提供了一些示例代码和演示,用于展示如何使用highway-env。这些示例代码可以帮助开发者更好地理解和使用highway-env,以便在他们自己的项目中应用。 总之,highway-env官方文档为开发者提供了全面的指南和说明,帮助他们理解和使用highway-env以实现更好的自动驾驶系统。通过文档中提供的示例代码和演示,开发者可以更好地应用highway-env并根据自己的需求来进行定制。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值