智能城市dqn算法交通信号灯调度_强化学习在智能交通灯中的应用

IntelliLight是KDD 2018中提出的一种利用强化学习进行智能交通灯控制的方法,针对传统定时和车辆驱动控制的不足,通过DQN网络优化交通灯策略。文章强调不能仅追求奖励最大化,需结合实际场景。实验表明,IntelliLight在真实数据集上表现优秀,能适应不同交通流量状况。
摘要由CSDN通过智能技术生成

IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control

introduction

这篇文章是来自KDD 2018的IntelliLight,这篇文章是宾州州立大学黎珍辉老师团队做的,这个团队最近几年在交通领域尤其是交通灯控制方面做了很多研究。

传统的交通灯控制主要有这两类:定时信号控制和车辆驱动的控制方法。最近的研究尝试将强化学习应用于交通灯控制问题。

与具体的交通灯控制问题相结合。环境由交通灯相位和交通状况组成,state是环境的特征表示。agent以state为输入,对灯光的控制作为action,比如改变交通灯的红绿灯阶段或者红绿灯时长等操作,然后agent会从环境得到一个reward,最直接的reward应该是车辆通过交叉口的总行驶时间但是这时间在每个时间步内无法直接计算,所以一般将reward设置为交叉路口的队列长度、车辆的等待时间、交叉口的吞吐量等。本文中的agent通过DQN网络来实现。agent根据DQN网络的损失函数更新模型以求奖励的最大化。

problem

首先,上面这些方法都假设相对静态的流量环境,与实际情况相距甚远,缺乏在真实数据上的检验。

而且,现有研究只求奖励的最大化而忽视了算法对实际流量的适应性,缺乏对策略结合实际情况的观察和理解。

第三个问题是交通灯的相位特征在很多算法中没有得到足够的重视,从而面对不同情况可能有相同的输出,但是输出结果并不符合实际需求。

下面通过两个小例子补充解释一下后两个问题。

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值