FairMove: A Data-Driven Vehicle Displacement System for Jointly Optimizing Profit Efficiency and Fairness of Electric For-Hire Vehicles
文章目录
该研究旨在通过一个数据驱动的车辆调度系统(FairMove)来优化电动租赁车辆(EFHV)的利润效率和公平性。
摘要
论文中提出的FairMove系统旨在解决电动租赁车辆(EFHV)在充电过程中的挑战,如较长的充电时间和动态的电价,这些因素会降低车辆的日常运营时间和利润。此外,论文利用来自中国深圳市的真实数据,包括超过20,100辆EFHV的GPS数据和交易数据以及123个充电站的数据,对FairMove系统进行了实施和评估。实验结果表明,FairMove有效地提高了EFHV车队的利润效率和公平性,分别提高了26.9%和54.8%,同时还提高了充电站利用率的公平性38.4%。
研究动机
随着全球电动汽车(EV)销售量的增长,各大城市和国家开始推行电动汽车计划以减少空气污染和提升能源安全性。与传统的燃油车辆相比,电动租赁车辆面临着充电时间长、电价变化等挑战。这些问题导致了EFHV的运营时间减少和充电站在某些时段过度拥挤。因此,需要一个有效的调度系统来平衡乘客需求和车辆充电需求,提高车辆的整体运营效率和利润公平性。
主要贡献
- 提出了FairMove系统 :通过数据驱动的方法设计了一个公平性感知的车辆调度系统,结合深度强化学习算法(FAMA2C),实现了EFHV车队的利润效率和公平性的联合优化。
- 实验评估 :利用深圳市的大规模数据进行实验,结果表明FairMove系统在提高利润效率和公平性方面表现优异,同时减少了车辆的巡航时间和空闲时间。
- 算法创新 :设计了一个公平性感知的多智能体演员-评论家算法(FAMA2C),在优化过程中考虑了多个可能冲突的目标(如利润效率和公平性),并通过集中训练和分散执行的策略提高了算法的适应性和效率。
方法
- 数据分析 :基于多源数据(GPS数据、交易数据、充电站数据等),进行了深入的数据分析,发现了充电时间减少并不一定延长服务乘客的时间,不同区域的乘客需求和潜在利润具有很大的空间和时间动态性。
- 问题建模 :将EFHV的调度问题建模为一个多智能体马尔可夫决策过程(MDP),并利用深度强化学习方法进行求解。设计了一个考虑公平性的奖励函数,使得每个智能体在学习过程中不仅最大化自己的利润,还与其他智能体合作以改善整体利润公平性。
- 实验设计 :利用深圳市的实际数据进行了模拟实验,评估了FairMove系统在不同条件下的性能。实验结果表明,FairMove系统在提升利润效率、降低巡航时间和充电等待时间方面具有显著优势。
强化学习(Reinforcement Learning, RL)是一种通过与环境交互来学习最优策略的机器学习方法。强化学习系统通常由以下几个部分组成:
- 环境(Environment):智能体所处的世界。
- 状态(State, s):描述智能体在环境中的当前位置。
- 动作(Action, a):智能体在特定状态下可以采取的行动。
- 奖励(Reward, r):智能体采取某个动作后环境反馈的奖励值。
- 策略(Policy, π):智能体选择动作的规则或方法,通常表示为 ( \pi(a|s) ),即在状态 ( s ) 下选择动作 ( a ) 的概率。
- 价值函数(Value Function, V):表示在某状态下预期的长期累积奖励。
- 状态-动作价值函数(State-Action Value Function, Q):表示在某状态下采取某动作后预期的长期累积奖励。
强化学习的目标是找到一种策略,使得在与环境长期交互中获得的累积奖励最大化。
FAMA2C算法
FAMA2C(Fairness-Aware Multi-Agent Actor-Critic)是一种多智能体深度强化学习算法,结合了演员-评论家(Actor-Critic)方法,并引入了公平性考量。以下是FAMA2C算法的具体步骤和方法:
1. 多智能体系统
在多智能体系统中,每个智能体(EFHV)被视为一个独立的实体,能够在环境中采取动作并获得奖励。FAMA2C算法通过多个智能体的协同工作来优化整个系统的目标。
2. 演员-评论家方法
演员-评论家方法结合了策略梯度(Policy Gradient)和价值函数逼近(Value Function Approximation):
- 演员(Actor):策略网络,用于决定在特定状态下采取的动作。策略网络的参数记为 θ p \theta_p θp。
- 评论家(Critic):价值网络,用于评估特定状态下策略的好坏。价值网络的参数记为 θ v \theta_v θv。
演员网络通过策略梯度方法更新,而评论家网络通过时间差分(Temporal Difference, TD)误差来更新。
3. 奖励函数
FAMA2C算法中的奖励函数考虑了利润效率和利润公平性,定义如下:
r ( s , a ) = α ⋅ P E + ( 1 − α ) ⋅ ( − P F ) r(s, a) = \alpha \cdot PE + (1 - \alpha) \cdot (-PF) r(s,a)=α⋅PE+(1−α)⋅(−PF)
其中:
- P E PE PE是利润效率。
- P F PF PF 是利润公平性。
- α \alpha α 是平衡因子,控制利润效率和公平性之间的权重。
4. 状态和动作
智能体的状态 s s s 包含本地视角状态(如时间和位置)和全局视角状态(如可用车辆数量和乘客需求预测)。动作空间包括待在当前区域、移动到邻近区域或前往充电站充电。
5. 算法步骤
FAMA2C算法的具体步骤如下:
- 初始化:初始化策略网络和价值网络的参数$ \theta_p$ 和$ \theta_v$ 。
- 状态观察:在每个时间步,智能体观察当前状态 s s s 。
- 选择动作:根据策略网络 $\pi_{\theta_p}(s) $选择动作 $a $。
- 执行动作:在环境中执行动作 $a $,得到下一个状态 s ′ s' s′ 和即时奖励$ r$ 。
- 更新评论家网络:根据时间差分误差更新价值网络的参数:
δ = r + γ V θ v ( s ′ ) − V θ v ( s ) \delta = r + \gamma V_{\theta_v}(s') - V_{\theta_v}(s) δ=r+γVθv(s′)−Vθv(s)
θ v ← θ v + λ ∇ θ v L ( θ v ) \theta_v \leftarrow \theta_v + \lambda \nabla_{\theta_v} L(\theta_v) θv←θv+λ∇θvL(θv)
其中 ( L(\theta_v) ) 是评论家网络的损失函数。
- 更新演员网络:根据策略梯度更新策略网络的参数:
∇ θ p J ( θ p ) = ∇ θ p log π θ p ( s , a ) δ \nabla_{\theta_p} J(\theta_p) = \nabla_{\theta_p} \log \pi_{\theta_p}(s, a) \delta ∇θpJ(θp)=∇θplogπθp(s,a)δ
θ p ← θ p + α ∇ θ p J ( θ p ) \theta_p \leftarrow \theta_p + \alpha \nabla_{\theta_p} J(\theta_p) θp←θp+α∇θpJ(θp)
- 重复步骤2-6,直到收敛或达到最大迭代次数。
FAMA2C的优势
- 公平性考虑:通过在奖励函数中引入公平性,使得智能体不仅追求自身的利润最大化,还能合作提高整个系统的公平性。
- 集中训练,分散执行:FAMA2C采用集中训练和分散执行的策略,提高了系统的训练效率和执行灵活性。
- 适应动态环境:通过深度强化学习方法,FAMA2C能够在动态变化的环境中找到最优策略。
通过以上步骤和方法,FAMA2C算法实现了对EFHV车队的优化调度,提升了整体利润效率和公平性。
结论
论文通过数据驱动的方法设计了一个公平性感知的EFHV调度系统,利用深度强化学习算法在提高车辆利润效率和公平性方面取得了显著的效果。实验结果验证了该系统的有效性和可行性,为电动租赁车辆的调度优化提供了新的思路和方法。