深度强化学习之自动驾驶论文阅读(二)

论文《A Deep Q-Network Reinforcement Learning-Based Model for Autonomous Driving》

仿真平台:Carla

概要:

提出一个使用深度Q网络(DQN)和长短时记忆(LSTM)的端对端自动驾驶系统

本文的主要贡献:第一,一个ADV模型与一个新的观察系统包括RGB(红,绿色,蓝色)图像信息,从面向前方的摄像头,车辆速度,车辆角度相对于道路中心作为观察输入数据。输出包括转向、制动和加速值的组合。第二,LSTM-DQN模型,用于在城市环境中的模拟自动驾驶环境中学习特定的驾驶行为。

本文提出的ADS的结构如下图所示:

将网络部分放大如下:

相关算法介绍:

DQN算法:

主要步骤:1、使用缓冲器,所有以前的经验都存储在缓冲器重放中。2、下一个动作由Q函数的最大输出决定。3、损失函数是预测Q值的均方误差以及目标Q值。

状态空间:使用RGB图像作为输入不足以让智能体在随机驾驶环境中学习。这是因为从安装在ADV顶部的摄像头捕获的图像非常复杂。因此,由RGB图像、车辆速度和车辆与道路中心之间的角度组成的输入表示元组被公式化。所提出的DQN模型使用输入数据进行训练。LSTM和CNN(卷积神经网络)都用于将输入数据映射到由转向、制动和加速命令组成的动作。

动作空间:有三个输出动作,即·加速,从零(无加速)到正一(完全加速)。·转向角,从负一(完全向右)和正一(完全向左)。·制动,从正一(完全制动)到零(无制动)

奖励函数:

网络结构:

我们训练的网络如图2所示。该模型包括两个基本的级联网络。第一个是深度CNN,它接收大小为(400 x 400 x 3)的RGB图像作为输入。它由5个卷积层组成,第1层到第5层分别有32,64,64,128,128个神经元。所有的层都由(3 x 3)kernelsize和stride零组成。每个Conv层都带有Relu激活函数。第二个是LSTM模型[6],它接收车辆速度和角度θ作为输入。LSTM模块具有记住长时间和短时间信息的优点。这对于从先前状态检索先前速度和角度值的历史以馈送到DQN网络中以用于动作决策是有益的。通过这种方式,LSTM模型和卷积层的输出被连接起来,形成最后三个密集层的输入。对于最后3个密集层,我们使用不同的激活函数,因为Tanh激活函数不适用于范围[0,1]内的加速度,因为它的范围在[-1,1]之间。两个密集层使用Sigmoid激活函数进行训练,用于处理[0,1]之间的加速度和制动值。具有Tanh的第三个密集层用于处理[-1,1]之间的转向值。合并所有三个密集层以产生当前状态下每个动作的Q值。使用具有300万个可训练参数和Adam优化器的网络进行训练。

实验:

        我们使用两个不同的城镇来训练和评估我们提出的LSTM-DQN自动驾驶代理。 城镇3用于训练所提出的模式,而城镇5用于评估在不可见环境中的代理性能。在训练阶段,以车速和与道路中心的夹角为输入,将原始DQN网络与加入LSTM模块后得到的平均累积奖励进行比较。从图6中可以明显看出,LSTM-DQN获得的返回值优于原始DQN模型。在评估阶段,我们测量了自主驾驶者在不可见环境中从起点到终点的行驶距离。

        当智能体能够以较少的车道侵入次数完成给定的轨迹并且没有碰撞时,该事件被认为是成功的。表II示出了用原始DQN模型和所提出的LSTM-DQN模型训练的智能体的行进距离、在行程期间通过路线轨迹的车道侵入的数量以及在驾驶期间发生的碰撞的数量。基于LSTM-DQN的代理能够成功完成大部分给定路线轨迹的驾驶,而最初的DQN代理仅设法覆盖整个轨迹的有限行程。给出角度值和距道路中心的距离作为输入信息,并将它们用于调整奖励函数,允许自主驾驶代理在车道中间驾驶,如与仅使用RGB图像作为DQN模型的输入相比,车道侵入的数量越少所指示的。此外,与记录碰撞事件的原始DQN代理相比,利用基于自动驾驶车辆和领先车辆之间的给定距离的奖励能够避免碰撞。

比较LSTM-DQN模型和DQN模型在不可见环境下的代理性能:

注:The travelled distance to the distention:扩张的行进距离

lane invasions:车道侵入 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值