读书笔记 - EITantawy2013 - Multiagent RL for Integrated Network of Adaptive Traffic Signal Controllers

《Multiagent Reinforcement Learning for Integrated Network of Adaptive Traffic Signal Controllers (MARLIN-ATSC): Methodology and Large-Scale Application on Downtown Toronto》

使用多代理强化学习(MARL)方法可以设计高效且稳健的自适应交通信号控制(ATSC),其中每个控制器(代理)负责控制单个交通路口周围的交通灯。但将MARL方法应用于ATSC问题存在一些挑战,因为代理通常对个体层面的环境变化做出反应,但所有代理的整体行为可能不是最佳的。

本文介绍了一种新型多智能体强化学习系统用于自适应交通信号控制(MARLIN-ATSC)

MARLIN-ATSC提供两种可能的模式:
1)独立模式,其中每个交叉口控制器独立于其他代理工作;
2)集成模式,其中每个控制器协调与相邻交叉点的信号控制动作。
MARLIN-ATSC在加拿大安大略省多伦多市中心市中心的59个交叉路口的大型模拟网络上进行了早高峰时段的测试。


背景

作为替代方案,使用强化学习博弈论方法可以合理地实现协调【8】。

RL应用于多个信号交叉口存在一些挑战。代理商通常会对个人层面的环境变化做出反应,但所有代理商的整体行为可能并非最佳。每个代理都面临着一个移动目标学习问题,其中代理的最优策略随着其他代理的策略随时间的变化而变化[8]。

博弈论提供了将多智能体系统建模为多人游戏的工具,并为游戏中的每个玩家提供了合理的策略。多智能体强化学习(MARL)是随机游戏stochastic game(SG;即随机环境中的多个参与者)中RL对多个代理的扩展。

为了解决这些局限性,我们提出了一种新的多代理强化学习,用于自适应交通信号控制器(MARLIN-ATSC)的集成网络,它提供以下特征和特征:
1)分散式设计和操作。与集中式系统相比通常更便宜;
2)可扩展。以适应任何网络规模;
3)稳健。即没有单点故障;
4)无模型 model-free。即不需要具有挑战性的交通系统模型;
5)自学习。即在部署后减少操作阶段的人为干预(操作现有ATSC的最昂贵的部分);
6)协调。即通过实施集成模式,协调二维道路网络中的交叉点,这是ATSC现有技术和实践中前所未有的新特征。

此外,MARLIN-ATSC使用多伦多市提供的输入数据(例如,交通计数,信号时间等)在多伦多市中心的59个交叉口的大型模拟网络上进行测试。


MARLIN-ATSC
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值