IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读

最新推荐文章于 2025-10-17 17:06:03 发布

奶油松果

最新推荐文章于 2025-10-17 17:06:03 发布

阅读量1.2k

点赞数 3

CC 4.0 BY-SA版权

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_36930921/article/details/118189666

论文精读-智慧交通领域专栏收录该内容

2 篇文章

订阅专栏

IntelliLight 全文脉络

概述

概述

1、本文贡献

1）Experiments with real traffic data.

使用了真实的数据集。

2）Interpretations of the policy.

对选择的政策进行了解释。

3）A phase-gated model learning.

以往的研究都是将phase作为一个特征，还包含有其他的特征如不同车道的车辆数，车辆位置等等。很有可能phase这一特征并没有产生什么作用。例如下图这种情况，两个场景除了交通灯不一致之外，其余完全相同，很有可能模型对这两种情况作出了相同的决策。但实际情况是A希望保持现在的phase，但B希望改变现在的phase。因此，提出了一种new phase-sensitive【新的相位敏感机制--自译】，包含了记忆宫殿和相位门，两种改进措施。

在这里插入图片描述

2、问题定义

1）State

（1）Traffic light phase
绿灯阶段包含后续的黄灯阶段(3s)，且只能按照指定的顺序变化（1->2->1->2->…）
- Green-WE：WE方向为绿灯，NS方向为红灯
- Red-WE：WE方向为红灯，NS方向为绿灯
（2）Traffic condition
针对每一个车道的，如果路口有多条车道，那么就有多个值
- L ：车道i上的队列长度 Li
- V ：车道i上的车辆数量 Vi
- W ：车道i上的平均等待时间 Wi
- M ：车辆位置的图像表示

2）Action

a = 0：改变相位
a = 1：保持相位

3）Reward

多种因素的加权和
计算公式及系数：
在这里插入图片描述

解释：
（1）车道排队长度L之和
其中L计算为给定车道上最后一个时间步长的停车车辆总数。低于0.1米/秒的速度被认为是停止。
（2）车道平均等待时间之和W
其中W定义为车辆自上次速度超过0.1m/s以来，以低于0.1m/s的速度行驶的时间(分钟)。基本上，车辆每次行驶的等待时间都重置为0。
（3）信号灯切换次数C

（4）车辆延迟之和D
（5）在动作a后的时间间隔内通过交叉口的车辆总数N
（6）在行动a后的时间间隔内通过交叉口的车辆行驶时间总和，定义为车辆在接近车道上花费的总时间(以分钟为单位) T