基于多智能体强化学习的出租车调度框架
网约车平台的繁荣使得人们比以往能更加“智慧”的出行。平台能实时掌握全局的车辆与乘客的供需关系,从而在车辆与乘客之间实现更加有效的匹配。但车辆与乘客还是会经常遭遇“车辆不停寻找乘客而乘客不停寻找车辆”的困境。产生这种现象的根本原因在于车辆供应与乘客需求的时空匹配程度不够。因此,现有很多研究都着力于调度空闲的车辆来提高两者之间的时空匹配程度。其中,基于强化学习的方法凭借其能够捕捉长期的车辆与乘客供需分布变化,而被广泛研究。在这些基于强化学习的车辆调度研究中,不论是通过中心化的方式协调整个城市的车辆,还是通过车辆