A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】

最新推荐文章于 2021-10-24 16:00:28 发布

奶油松果

最新推荐文章于 2021-10-24 16:00:28 发布

阅读量473

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36930921/article/details/118196586

版权

论文精读-智慧交通领域专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章脉络【Dueling DQN+Prioritized Memory ，2019年TVT】

1、贡献
2、问题定义
3、网络结构
4、实验

1、贡献

1）首次将dueling network，target network，double DQN 和prioritized experience replay结合在一起。

2）提出了一种在整个周期内确定相位持续时间的控制系统，而不是将时间分段。

3）在SUMO上进行实验。

2、问题定义

1）状态

将路口分割成大小相同的小正方形，每个网格是车辆的状态值**<位置，速度>**。
位置是0或1【有车辆和没有车辆】，当该位置有车辆时对应显示其速度值[实数]。

2）动作

改变的是相位的持续时间，每次加5s。最大持续时间是60s，最小是0s。
例如下图，当前位于t1时刻，下一时刻有以下8种变化方案。
在这里插入图片描述
交通信号按照顺序循环变化，两个相邻相位之间需要一个黄灯来作为过渡，黄灯时间计算公式为：道路允许最大速度/车辆减速的加速度

3）奖励

将奖励定义为两个相邻周期之间的累计等待时间的变化
在这里插入图片描述

3、网络结构

在这里插入图片描述

A、CNN

由三个卷积层和几个全连接层构成，激活函数使用Leacky ReLU。
在这里插入图片描述

B、Dueling DQN

将Q网络分割成两部分：价值函数与优势函数。在实际使用中使用“当前选择动作的优势值减去平均值”，能够提高稳定性。
在这里插入图片描述

C、Target network

采用目标网络帮助指导更新过程，解耦目标值与实际值估计，通过冻结目标值的方式，使神经网络的更新更加稳定。
目标网络参数的更新采取下式：
在这里插入图片描述
加入目标网络后，整个神经网络的损失值表达式为：

D、Double DQN

为了缓解DQN算法过度估计问题，有学者提出采取当前Q网络的最大动作，而不是选择target网络中Q值最大的对应的动作。
因此，目标Q值的计算公式变为：
在这里插入图片描述

E、具有优先级的经验回放

DQN中最重要的一部分就是经验回放，通过经验回放可以调整抽取样本的分布，使其符合独立同分布，同时可以降低抽取的样本之间的相关性。
样本的优先级【采样概率】常采用两种方式计算：基于比例和基于等级。本文中采用的是基于等级方法，即将转移序列的时间差分误差项作为评价优先级的标准。
TD-error的计算公式如下：
在这里插入图片描述
转移序列i的采样概率：
对转移序列根据TD-error进行排序，优先级就是其排序的倒数。

F、优化

采用Adam方式？？？

算法整体伪代码

在这里插入图片描述

4、实验

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】

文章脉络【Dueling DQN+Prioritized Memory ，2019年TVT】1、贡献1）首次将dueling network，target network，double DQN 和prioritized experience replay结合在一起。2）提出了一种在整个周期内确定相位持续时间的控制系统，而不是将时间分段。3）在SUMO上进行实验。2、问题定义1）状态2）动作3）奖励3、网络结构A、CNNB、Dueling DQNC、Target networkD、Double DQNE、具有
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。