A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】

1、贡献

1)首次将dueling network,target network,double DQN 和prioritized experience replay结合在一起。

2)提出了一种在整个周期内确定相位持续时间的控制系统,而不是将时间分段。

3)在SUMO上进行实验。

2、问题定义

1)状态

将路口分割成大小相同的小正方形,每个网格是车辆的状态值**<位置,速度>**。
位置是0或1【有车辆和没有车辆】 ,当该位置有车辆时对应显示其速度值[实数]。

2)动作

改变的是相位的持续时间,每次加5s。最大持续时间是60s,最小是0s。
例如下图,当前位于t1时刻,下一时刻有以下8种变化方案。
在这里插入图片描述
交通信号按照顺序循环变化,两个相邻相位之间需要一个黄灯来作为过渡,黄灯时间计算公式为:道路允许最大速度/车辆减速的加速度
在这里插入图片描述

3)奖励

将奖励定义为两个相邻周期之间的累计等待时间的变化
在这里插入图片描述

3、网络结构

在这里插入图片描述

A、CNN

由三个卷积层和几个全连接层构成,激活函数使用Leacky ReLU。
在这里插入图片描述

B、Dueling DQN

将Q网络分割成两部分:价值函数与优势函数。在实际使用中使用“当前选择动作的优势值减去平均值”,能够提高稳定性。
在这里插入图片描述

C、Target network

采用目标网络帮助指导更新过程,解耦目标值与实际值估计,通过冻结目标值的方式,使神经网络的更新更加稳定。
目标网络参数的更新采取下式:
在这里插入图片描述
加入目标网络后,整个神经网络的损失值表达式为:
在这里插入图片描述

D、Double DQN

为了缓解DQN算法过度估计问题,有学者提出采取当前Q网络的最大动作,而不是选择target网络中Q值最大的对应的动作。
因此,目标Q值的计算公式变为:
在这里插入图片描述

E、具有优先级的经验回放

DQN中最重要的一部分就是经验回放,通过经验回放可以调整抽取样本的分布,使其符合独立同分布,同时可以降低抽取的样本之间的相关性。
样本的优先级【采样概率】常采用两种方式计算:基于比例和基于等级。本文中采用的是基于等级方法,即将转移序列的时间差分误差项作为评价优先级的标准。
TD-error的计算公式如下:
在这里插入图片描述
转移序列i的采样概率:
对转移序列根据TD-error进行排序,优先级就是其排序的倒数。
在这里插入图片描述

F、优化

采用Adam方式???

算法整体伪代码

在这里插入图片描述

4、实验

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值