读书笔记 - 多智能体强化学习在城市交通网络信号的综述2018

本文深入探讨了多智能体强化学习(MARL)在城市交通网络信号控制中的应用,从基本概念到具体控制方法,包括完全独立、部分状态合作和动作联动的MARL控制。通过分析,指出这些方法的优势和挑战,强调了交通状态特征抽取、自稳定机制和多目标反馈等基础问题的重要性。
摘要由CSDN通过智能技术生成

多智能体强化学习在城市交通网络信号 控制方法中的应用综述


交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境, 将每个路口的交通信号控制器看做一个异质的智能体, 非常适合采用无模型、自学习、数据驱动的多智能体强化学习(MARL) 方法建模与描述。
本文系统回顾了现有MARL方法在城市道路交通网络信号控制中的研究和应用, 探讨了将 MARL应用于大规模区域交通控制的关键问题。

为了研究该方法的现状、存在问题及发展前景, 论文跟踪了多智能体强化学习在国内外交通控制领域 的具体应用, 包括:交通信号 MARL 控制概念模型、完全孤立的多智能体强化学习的控制、 部分状态合作的多智能体强化学习控制、动作联动的多智能体强化学习控制


背景

Multi agent reinforcement learning based traffic signal control for integrated urban network: survey of state
多智能体强化学习(multi-agent reinforcement learning, MARL)

MARL控制可根据控制效果的反馈信息自主学习并优化策略知识,是一种真正的闭环反馈控制

1 交通信号MARL控制基本概念
1. 1 RL交通控制标准模型

交通信号 RL 智能体的标准模型如图1 所示。 每个路口的交通信号机被抽象为一个智能体, 控制对象为道路交通网络上的时变交通流。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值