Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey 论文阅读笔记

这是一篇智慧交通领域的综述,侧重于讲解用强化学习解决交通信号灯管控 RL+TSC ;Traffic Signal Control :交通信号灯管控,

一. Overview

  1. 分类:
    AI based transportation applications:
    ① management applications,
    ② public transportation,
    ③ autonomous vehicles

这部分还介绍了很多RL的基本概念,目标网络、经验回放等等,都是强化学习领域的常见知识点,可以看我其他笔记~
在这里插入图片描述
交通信号灯管控:
state:队伍长度、车辆位置、车辆速度
目标:最小化十字路口的堵塞

二. 交通信号灯控制表示为 Deep RL 问题

2.1 state:

  1. RGB图像,结合DQN;交叉口的快照(速度和位置)
  2. Image-like representation/discrete traffic state encoding (DTSE); 优点:包含了丰富的信息,速度、位置、信号灯、加速度
  3. feature-based value vector,向量表示;如:队伍长度、累计等待时间、一条车道的平均等待时间、信号灯持续时间、一条车道的车辆数
  4. 考虑更完整的道路信息

在这里插入图片描述

2.2 action:

一般是十字路口,需要考虑不同方向和持续时长;
四种绿灯阶段: North-South Green (NSG)南北方向通行, East-West Green (EWG)东西方向通行, North-South Advance Left Green (NSLG)南北方向可左转, East-West Advance Left Green (EWLG)东西方向可左转.

  1. 选择绿灯(四个方向中选一个绿灯)
  2. binary action:保持当前or换方向
  3. 更新每个阶段持续时长

Q:只关心绿灯吗?
A:有的论文简化成两个绿色阶段:南北绿色和东西绿色,忽略了左转

2.3 reward:

  1. 等待时间
  2. 累计延迟
  3. 队伍长度
  4. absolute value of the traffic data (流量数据)

2.4 Neural Network Structure:

  1. MLP
  2. CNN:和DQN结合
  3. RNN:序列数据
  4. AutoEncoder

2.5 仿真环境:

  1. 早期:Java-based Green Light District (GLD)
  2. 流行:Simulation Urban Mobility (SUMO)
  3. 成熟:VISSIM,AIMSUN(与MATLAB交互好)

三. Deep RL在交通信号灯控制中的应用

在这里插入图片描述

3.1 Standard RL Applications:

3.1.1 Single Agent Applications:

RL-based single intersection
会分成单交叉口和多交叉口交通

参考文献[57]将队伍长度作为state,总延迟时间作为reward;是第一篇binary action model;与固定时间的信号灯的场景对比
文献[60]首次提出真实交叉路口场景,提出了三种state定义。。。 四个reward function。
(这部分相当于related work)

3.1.2 Multi-Agent Applications

协同控制多个十字路口

  1. 四种标准TSC算法(应该是常用baseline):固定时间控制、随机控制、最长队伍优先、车辆最多优先
  2. 比较经典的算法(Wiering提出):TC-1,TC-2,TC-3
  • state由红绿灯配置、车辆位置、车辆目的地构成,考虑到了局部和全局的特征(实际并不可行,因为车辆信息是未知的)
  • 目的是减小等待时间
  1. 后续工作对Wiering工作的改进:
    ① 增加其他路口的堵塞信息
    ② 增加state size(通过增加堵塞信息)
    ③ 增加堵塞系数(instead of increasing the state space)
    ④ 加入堵塞和意外信息
    ⑤ 考虑协同信息
    ⑥ 多目标:vehicle stops, average waiting time, and maximum queue length are targeted as objectives for low, medium, and high traffic volume 根据不同场景进行不同设计reward function

  2. Khamis的工作:
    ① 贝叶斯转移概率->reward function
    ② more specific objectives
    ③ seven objectives,加上了cooperative exploration function

  3. related work:
    ① 分层强化学习
    ② R-Markov Average Reward
    ③ 考虑各个区域间的协同信息

3.2 Deep RL Applications:

3.2.1 Single Agent Applications:
3.2.2 Multi-Agent Deep RL:

四. DEEP RL FOR OTHER ITS APPLICATIONS

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值