【论】RedPacketBike: A Graph-Based Demand Modeling and Crowd-Driven Station Rebalancing Framework for B

panbaoran913

已于 2022-04-07 15:33:36 修改

阅读量441

点赞数 1

分类专栏：论文深析文章标签： bike rebalance 深度学习强化学习优化问题

于 2022-03-07 21:57:05 首次发布

本文链接：https://blog.csdn.net/panbaoran913/article/details/123294978

版权

论文深析专栏收录该内容

59 篇文章 19 订阅

订阅专栏

RedPacketBike: A Graph-Based Demand Modeling and Crowd-Driven Station Rebalancing Framework for Bike Sharing Systems

作者：Hang Zhu†, Tieqi Shou†, Ruiying Guo, Zhihan Jiang, Zeyu Wang, Zhiyuan Wang, Zhiyong Y u

摘要

自行车共享系统已在全球部署。高质量的自行车共享系统的关键问题之一是重新平衡城市范围内的车站，以保持自行车的可用性。传统策略，如卡车和志愿者根据历史骑行记录重新定位自行车，通常在固定路径和有限容量下运行，缺乏灵活性，无法应对高度动态和上下文相关的骑行需求，并且通常存在高成本和长时间延迟。在这项工作中，我们提出了RedPacketBike，这是一个激励驱动、基于人群的站点再平衡框架，可以根据利用深度学习技术对自行车需求的准确预测，从混合车队（例如，志愿者车手和租用卡车）中有效招募参与者。

🐸首先，我们提出了一种时空聚类方法，从波动的自行车使用数据中提取自行车需求热点。
🐸然后，我们构建了一个名为BikeNet的上下文感知深度神经网络来预测自行车需求热点的趋势，同时通过图卷积网络（GCN）对空间相关性进行建模，通过长-短期记忆网络（RNN）对时间相关性进行建模，并通过自动编码器（AE）对上下文因素进行建模。
🐸最后，我们提出了一种基于强化学习的方法，通过使用整数线性规划（ILP）算法生成站点再平衡任务，并将任务分配给具有动态激励设计和奖励期望的混合车队参与者，来寻找最优的站点再平衡方案。

使用从纽约市Citi bike和厦门市Mobike收集的真实世界自行车共享系统数据进行的实验验证了我们框架的性能，在MAE中测量的需求预测误差低于4.171，通过模拟真实世界的参数设置，站点可用性提高了17.2%，超越最先进的基线。

1. introduce

自行车共享系统(bike sharing systems)作为缓解城市交通拥堵问题的绿色交通手段正在全球蓬勃发展。这种系统允许用户免费租赁和归还自行车，以解决最后一英里的问题[1]。然而，由于人类动态移动模式的不确定性，许多自行车站存在需求过剩问题，用户没有自行车可供使用，或者没有码头可供归还自行车[2]。过度需求的站点可能会极大地影响用户的体验，因为他们需要找到另一个可用的站点来租赁或归还自行车，这降低了用户参与自行车共享系统的意愿[3]。因此，自行车共享系统运营商必须保持自行车站的平衡，以避免过度需求问题。

运营自行车共享系统的公司已经采取了各种策略来解决需求过剩的问题[4]，[5]，比如在高峰时段[6]，[7]派遣一队卡车定期在车站之间重新定位自行车。然而，☀️基于卡车的方法具有固定的运输路径和有限的容量，无法应对高度波动的自行车需求，并导致较高的运营成本。最近，运营商建议☀️加入志愿者骑手，以帮助将自行车重新分配到需要的站点，并提供奖金和奖励[8]，但这些方法通常仅基于历史站点状态的统计数据来分配再平衡任务和奖励，在异常的社会和交通事件下，在应对激增的自行车需求时，通常表现不佳。因此，运营商需要找到一种成本效益高、需求响应性强的车站再平衡方法来解决这些问题。

提出的问题：对历史站点状态的数据进行基于卡车或者志愿者棋手的再平衡策略的时候，面对异常的突变（激增的自行车需求）时，表现不佳。

幸运的是，由于移动计算技术的快速发展，当用户与自行车共享系统交互时，可以收集和分析他们的出行需求[9]。同时，众感知范式的出现( the emergence of crowdsensing paradigm)为激励用户参与站点再平衡提供了新的可能性[10]，[11]。在本文中，我们提出了RedPacketBike，这是一个激励驱动的、基于人群的站点再平衡框架，可以在利用深度学习技术准确预测自行车需求的基础上，有效地从混合车队（例如志愿骑手和租用卡车）中招募参与者。我们的方法提供一个经济高效、响应需求的车站再平衡解决方案，鼓励乘客和卡车司机在特定车站租用或归还自行车，以换取金钱奖励。如图1所示，当参与者启动人群再平衡移动应用程序时，将😉显示自行车站的分布和奖励（红包）。😉参与者可以浏览任务详情，包括再平衡距离、金钱奖励、导航路线和时间等。参与者😉完成再平衡任务后，将支付奖励。为了设计和实现RedPacketBike框架，我们需要解决以下问题。
在这里插入图片描述

新技术（RedPacketBike）的支持以及相关介绍

首先，😓很难准确预测车站级别的自行车需求。由于骑自行车的人通常会临时选择起点或目的地附近的一个车站，车站层面的自行车使用模式是高度动态和波动的[12]。此外，自行车使用模式通常取决于环境，不仅受常见环境因素(common contextual factors)（如高峰时间或天气条件）的影响，还受机会主义环境因素(opportunistic contextual factors)（如社会和交通事件）的影响。因此，在车站层面直接预测每小时自行车使用需求通常不会带来令人满意的准确性。为了解决这个问题，我们建议将站点聚集到需求热点，并提取需求趋势以缓解波动。然后，我们建议建立一个上下文感知的深度神经网络，以准确预测自行车需求热点的趋势，同时建模自行车需求的空间相关性、时间依赖性和上下文因素。

问题：预测 车站级别的需求预测困难
解决：将站点级别的全站点预测–降低–到需求热点的预测
预测方法：上下文感知的深度神经网络
方法需要：空间相关性、时间依赖性和上下文因素

其次，😓有效激励潜在参与者完成站点再平衡任务并非易事。城市范围内的自行车站再平衡任务生成，即生成一组最佳的站对的集合，以重新定位自行车，从而平衡城市范围内的站(generating an optimal set of station pairs to reposition bikes so as to balance citywide stations)，通常被认为是一个NP难问题 [13]. 此外，天气条件和骑行距离等各种因素可能会对用户参与再平衡任务的意愿产生重大影响[8]，[14]。因此，在上述约束条件下招募参与者和分配任务构成了巨大的挑战。在本文中，我们建议将该问题描述为一个强化学习任务[7]，目的是通过整数线性规划（ILP）算法生成的任务再平衡，以及基于时空上下文和参与者意愿动态计算的激励，来训练一个最优的任务分配代理。

任务数学化：寻找最优OD对的集合（最优的条件目前没有描述）
方法：强化学习和整数线性规划
工具：python,gurobi

基于上述研究目标和问题，本文的主要贡献如下：

我们的工作是朝着利用移动计算和众感知技术的成本效益和需求响应型电台再平衡框架迈出的有希望的一步。我们使用图形神经网络对移动感知的自行车使用数据进行建模，以准确预测自行车需求趋势，并利用强化学习机制有效激励参与者重新平衡需求站。这种框架还可用于优化各种移动系统，例如蜂窝通信网络.
我们提出了RedPacketBike，这是一个激励驱动的、基于人群的站点再平衡框架，可以根据利用深度学习技术对自行车需求的准确预测，有效地从混合动力车队中招募参与者。首先，我们提出了一种时空聚类方法，从波动的自行车使用数据中提取自行车需求热点和趋势。然后，我们构建了一个名为BikeNet的上下文感知深度神经网络来预测自行车需求热点的趋势，同时通过图卷积网络（GCN）对空间相关性进行建模，长短期记忆网络（LSTM）的时间依赖性，以及自动编码器（AE）的上下文因素。最后，我们提出了一种基于强化学习的方法，通过使用整数线性规划（ILP）算法生成站点再平衡任务，并将任务分配给具有动态激励设计和奖励期望的混合车队参与者，来寻找最优的站点再平衡方案。
我们使用从纽约市花旗自行车系统和厦门市Mobike系统收集的真实自行车共享系统数据评估了我们提出的框架。需求预测和站点再平衡的结果验证了我们方法的有效性，在MAE中测得的需求预测误差低于4.171，通过模拟现实世界的参数设置，站点可用性提高了17.2%，优于现有基线。

2. FRAMEWORK OVERVIEW

如图2所示，我们提出了RedPacketBike，这是一个基于人群的三阶段激励站点再平衡系统，可以准确预测细粒度的自行车需求趋势，并利用图形神经网络和人群感应技术有效地重新平衡过度需求的自行车站点。
在这里插入图片描述
在需求热点提取阶段，首先提取自行车需求热点的空间区域，然后提取自行车需求热点的时间趋势，实现自行车需求热点的时空建模。在需求热点趋势预测阶段，我们使用BikeNet对细粒度的自行车需求趋势进行预测，同时通过图卷积网络（GCN）对空间相关性进行建模，通过长短时记忆（LSTM）对时间相关性进行建模，并通过自动编码（AE）对上下文相关性进行建模。在需求热点再平衡优化阶段，我们首先将再平衡任务生成问题建模为运输问题，然后提出一种基于整数线性规划的解决方案，以生成具有最低循环距离目标的车站再平衡任务。然后，基于时差算法将站点再平衡任务分配给用户，以优化参与用户的奖励。

对图2的文字解释，看图2即可。

3 BIKE DEMAND HOTSPOT EXTRACTION

在需求热点提取阶段，我们的目标是准确提取热点空间区域，并获得相应的热点时间趋势。我们需要首先明确自行车需求。自行车需求通过自行车流量计算。自行车流有两种类型：流入和流出，流入是返回车站的自行车数量，流出是从车站租用的自行车数量。 $i$ 站的自行车需求定义为时间跨度 $∆ t$ 内的流出量减去流入量. 时间跨度是观测数据的持续时间，每个时间跨度持续一段时间。

定义站点的需求

现有的工作集中于单车站的需求，并不认为需求的形成最终会汇聚成多个需求热点。此外，一个热点的自行车数量通常在短时间间隔内发生急剧变化，而传统的固定时间间隔处理忽略了细粒度的时间特征，忽略了同一时期不同时间的需求变化。例如，图3（a）中自行车需求的时间序列来自商业区的自行车站。虽然A点和B点的值大致相同，但它们的趋势却截然不同，因为A点处于上升模式，而B点处于下降模式[15]。这些被忽视的点是电厂再平衡过程中的关键因素。因此，在需求热点提取阶段，我们的目标是准确提取热点空间区域和热点时间趋势。
在这里插入图片描述

3.1 Hotspot Spatial Region Extraction

我们使用加权无向图 $G = (V ， E)$ 来表示自行车共享系统，其中 $V$ 表示代表自行车站的节点集， $E$ 表示站对之间的边。边 $e_{ij}={v_i，v_j}∈ E$ 的权重被定义为 $W(v_i，v_j)$ 。这里，我们计算 $v_i$ 站和 $v_j$ 站之间的地理距离作为边的权重。

我们根据地理位置对自行车站进行聚类，得到热点作为后续自行车需求预测和再平衡优化的研究对象。在实现中，使用加权图G来建模自行车共享站点之间的关系。当 $v_i$ 站和 $v_j$ 站之间的路网距离小于距离阈值 $\kappa$ 时， $v_i$ 站和 $v_j$ 站具有边.
$a_{i,j}=\begin{cases}1, & if \ dist(v_i,v_j) \leq \kappa \\ 0, & otherwise \end{cases} \tag{1}$

其次，根据自行车需求变化的相似性和POI特征，计算加权图的边权重。通过皮尔逊相关系数计算自行车需求变化 $wp（v_i，v_j)$ 的相似性。
$w_p(v_i,v_j)=correlation(X_{vi}, X_{vj}) \tag{2}$

通过余弦距离相似度计算POI特征 $w c (v i ， v j)$ 的相似度。
$w_c(v_i,v_j)=similarity(Z_{vi},Z_{vj}) \in [0,1] \tag{3}$

式中，Zvi表示距离区域 $v_i$ 1km范围内的POI类别的统计向量。POI是兴趣点的缩写，如交通站、医院、学校等。

以自行车站点为节点，根据站点之间的距离 $a_{i,j'}$ 、自行车需求变化的相似性 $w_p(v_i、v_j)$ 和POI特征的相似性$w_cvi、vj）建立图的边缘。
$w_{i.j}=a_{ij}[\mu w_p(vi,vj)+(1-\mu)w_c(vi,vj)]\tag{4}$

其中 $µ$ 是权重因子，控制两个因素的影响程度。
为了使相邻的自行车站汇聚成多个空间热点区域，使同一区域内的站点具有相似的需求变化模式和poi特征相似性，采用距离约束聚类算法（DCCA）[12]实现站点的空间聚类

3.2 Hotspot Temporal Trend Extraction

我们定义 $X∈ R^{N_t×N_s}$ 是图G的节点值矩阵，即每个节点 $v \in V$ 的值是 $X^{(t)}_v$ ，其中 $N_t$ 是时间跨度的数量， $N_s=|V |$ 系统中的站点数量。为了处理细粒度的时间特征，并关注同一时期不同时间的需求变化，我们首先使用三次样条插值方法(cubic spline interpolation method)[16]对获得的离散点序列进行平滑，然后基于峰值检测算法提取热点时间趋势 .

具体来说，在三次样条插值阶段，我们假设实际趋势为 $f (x)$ ，其中 $x$ 代表时间。根据给定的插值间隔 $a=x_0<x_1<…<x_n=b$ ，如果 $S(x)∈ C^2[a，b]$ ，在每个区间 $x_k，x_{k+1}]$ 是一个三次多项式，那么 $S (x)$ 被称为这个区间上的三次样条函数。此外，如果 $S(x)=f(x_k)=y_k，k=0,1,2,...,n$ , 然后 $S (x)$ 被称为 $f (x)$ 在 $[a ， b]$ 上的三次样条插值函数。 $S (x)$ 如下：
$=a_i+b_ix+c_ix^2+d_ix^3,i=1,2,...,n\tag{5}$

式中， $a_i，b_i，c_i，d_i$ 是系数。根据连续性条件和边界条件[16]，我们可以计算插值函数S（x）的表达式。通过这种方法，我们对离散的自行车共享需求点进行插值，得到三次样条插值函数S（x）。

在热点时间趋势提取阶段，我们关注自行车需求发生巨大变化的时刻，因为一般的调度策略是将自行车从数量急剧增加的地方调度到数量急剧减少的地方。相应地，我们首先需要从S（x）中提取两类关键点：😉需求趋势急剧增加形成的峰值和😉需求趋势急剧下降形成的低谷。

具体来说，我们使用自动多尺度峰值检测（AMPD）算法[17]来提取热点时间趋势。它通过计算和分析局部极大尺度图（LMS）来检测峰值，与其他方法相比，LMS具有阈值参数少、通用性好、检测效率高、对高低频噪声鲁棒性强等优点。

在使用AMPD算法检测波峰和波谷后，我们获得了所有关键点。在这项工作中，我们热衷于时间序列的趋势模式，即向上、不变和向下。因此，我们计算两个关键点之间的时间间隔，以获得每次需求趋势变化的持续时间，并记录关键点的斜率，如图3（b）所示。我们利用斜率和持续时间来描述趋势模式[15]。鉴于历史趋势模式，我们预计将预测自行车需求的未来趋势。

4 DEMAND HOTSPOT TREND FORECASTING

在需求热点趋势预测阶段，我们的目标是准确预测未来超需求站点的细粒度趋势模式。然而，由于自行车站分布的内在空间相关性和自行车使用模式的时间动态性，这并不是微不足道的。例如，图4显示了2015年2月1日纽约市两类自行车站的一天自行车需求模式。商业区内的车站通常在高峰时段出现乘车高峰，而住宅区内的车站下班后使用率较高。使用时间序列分析技术的传统自行车需求预测模型（例如ARIMA模型[18]和人工神经网络[19]）无法实现高预测精度，因为自行车使用模式表现出强烈的内在时空上下文依赖性 .
在这里插入图片描述

对于空间相关建模，传统的预测模型通常将城市空间划分为多个规则网格，将数据映射到欧几里德域，通过卷积神经网络（CNN）捕捉空间特征[20]。然而，在站点再平衡问题中，规则网格无法模拟分散和不规则的自行车站点分布。最近，基于图的深度学习方法在非欧几里德领域表现良好。因此，我们引入图结构来模拟自行车站分布的空间模式，并使用图卷积网络（GCN）[21]来捕获图结构数据的潜在空间相关性。

对于时间上下文依赖性，自行车需求的模式( pattern of bike demand)受接近度(closeness)（例如高峰时段可供使用的自行车很少）、周期( period)（例如，每天和每周的骑行程序相似）和趋势(trend)（例如，冬季骑行次数减少）的影响，这需要模型响应长期-短期依赖性。我们引入了一种称为长短时记忆（LSTM）[22]的递归神经网络（RNN）模型，以捕捉每个自行车站的时间动态，因为它在实践中表现出色。

此外，还有一些外部环境因素会影响对自行车的需求，例如天气和社交活动。为了同时对这些外部特征进行建模，我们引入了自动编码器（AE）来实现它。自动编码器是一种用于无监督学习和高效编码的神经网络。它利用反向传播算法学习输入的潜在表示，并重构输出，使输出值与输入值相等，从而输入外部特征并得到其表示。

总体而言，我们提出了一个名为BikeNet的上下文感知深度神经网络来捕捉自行车需求的时空上下文依赖关系，从而准确预测未来的需求。具体细节如下。

4.1 GNN-based Spatial Dependencies Modeling

细粒度自行车需求趋势预测(the fine-grained bike demand trends forecast)的目标是根据之前的趋势观察预测未来的自行车需求趋势。为此，我们将全市自行车共享系统建模为多个时空图。我们构造了三类图：空间邻近图 $G_n$ 、空间模式图 $G_p$ 和空间函数图 $G_f$ 。

根据托布勒第一地理定律( Tobler’s first law of geography)[23]，较近区域之间的关系更大。因此，在建立图形时，首先考虑相邻区域之间的关系。我们使用高斯核函数来处理距离，构建空间邻近图 $G_n$ ，计算边缘权重 $w_n$ 的公式如下：

在这里插入图片描述

事实上，需求模式相似的地区在空间上并不一定彼此接近。除了考虑相邻区域之间的空间关系外，还需要考虑与需求模式相关但远离的区域之间的关系。我们构建空间模式图 $G_p$ 来表示自行车需求变化的相似性，其中边值为 $w_p(vi，vj)$ ，如等式2所示。空间模式图 $G_p$ 的邻接矩阵 $A_p$ 类似于 $A_n$ 。

在城市空间中，具有相似功能区的区域通常具有相似的需求模式，即使这些区域并不接近。因此，我们构建了空间函数图 $G_f$ 来表示POI特征的相似性，边为 $w_c(vi，vj)$ ，如等式3所示。空间函数图Gf的邻接矩阵Af也类似于An。

基于多个时空图结构，我们使用节点值和边权重来建模自行车需求的时空动态。尽管图神经网络在非欧几里德域表现良好，但对图进行卷积运算是困难的。为了解决这个问题，Bruna等人[24]利用图谱理论提出了图的谱图卷积。利用图谱理论，可以很容易地在傅里叶域中定义图上的卷积运算。“谱图卷积”∗“G” 的定义是
在这里插入图片描述

4.2 RNN-based Temporal Dependencies Modeling

为了捕捉城市空间中每个自行车站的时间动态，我们引入了一种改进的RNN变体，称为长短时记忆（LSTM）[22]。在时间序列预测中，存储单元通常用于以相对较少的费用捕获长期和短期的模式。我们替换了LSTM中的矩阵乘法利用方程8中定义的图卷积，我们基于GNN的LSTM为
在这里插入图片描述

4.3 AE-based Contextual Dependencies Modeling

为了模拟天气和社会事件以及其他外部上下文特征，我们使用自动编码器（AE）来实现。我们将影响自行车需求的各种外部特征输入到AE中，然后使用反向传播算法学习这些特征的潜在表示。具体来说，对于训练样本 $X_{Ext}$ ，自动编码器首先对输入进行编码，以获得隐藏层 $h_{Ext}$ 的特征表示，并希望可以从新特征重建原始输入。编码过程是
在这里插入图片描述

4.4 BikeNet: Model Architecture

通过空间相关性、时间相关性和上下文建模，我们构建了一个上下文感知的深层神经网络BikeNet，以准确预测细粒度的自行车需求趋势。图5显示了BikeNet的模型架构。
🤔首先，构建了三个图，即空间邻近图、空间模式图和空间功能图，以建模各种空间关系。
🤔其次，三个GCN用于提取三个图形的空间特征，LSTM用于建模它们的时间特征。
🤔然后，将GCN提取的空间特征和LSTM提取的时间特征进行融合，得到时空特征表示 $h_{ST}$ 。
🤔最后，通过自编码器建模获得的上下文特征表示 $h_{Ext}$ 与 $h_{ST}$ 融合，然后使用Huber loss[26]作为两个完全连接层（FC）后的损失函数对模型进行训练。
在这里插入图片描述

5 DEMAND HOTSPOT REBALANCING OPTIMIZATION

在准确预测自行车需求趋势后，我们的下一步是找到最佳的站点再平衡策略，以防止站点过度需求。然而，解决站点再平衡问题的一个关键挑战是，由于移动自行车的大量站点到站点组合，这通常是一个NP难问题[13]。此外，由于再平衡资源（例如预算和卡车数量）有限，该问题存在资源限制[27]。在这项工作中，我们利用整数线性规划（ILP）和时间差分（TD）算法来有效地找到这个问题的最优解。
⭐️首先，我们将再平衡任务生成问题建模为运输问题，
⭐️然后提出基于整数线性规划的解决方案。
⭐️其次，我们将任务分配问题建模为马尔可夫决策过程（MDP）。
⭐️然后，使用时差算法评估策略并更新状态值函数。我们详细阐述如下。

5.1 Bike Rebalancing Task Generation

5.1.1 System Modeling

我们将上述问题建模为一个优化问题，目标是最小化将自行车从供过于求的站点移动到供过于求的站点的成本。我们定义了在时间 $t$ 时，车站 $i$ 中自行车的合理数量在 $[l b ， u b]$ 范围内，其中 $lb=min×T^{(t)}_i，ub=max×T^{(t)}_i$ ，min是停靠站数量的最小比率，max是停靠站数量的最大比率，T^{(t)}_i是时间t时车站i中的总停靠站数量。因此，该站可以满足那些想租自行车和还自行车的人。对于每个超供站(over-supply station) $i$ ，应移除的自行车数量在 $[s i - u b, s i - l b]$ 范围内, 对于每个超需求站(over-demand station)j，应接收的自行车数量在 $[l b - d j, u b - d j]$ 范围内，其中 $s_i(i=1,2，…，n)$ 是供过于求站i中的自行车数量， $d_j(j=1,2，…，m)$ 是供过于求站j中的自行车数量，n和m分别是供过于求站和供过于求站的数量。

5.1.2 Rebalancing Demand Matrix Construction

我们用 $s_i(i=1,2，…，n)$ 表示过量供应站i中的初始自行车数量，用 $d_j(j=1,2，…，m)$ 表示过量供应站j中的初始自行车数量。因此，我们将超供站和超需站分别定义为 $S={s1，s2，…，sn}和D={d1，d2，…，dm}$ ，其中n是自行车共享系统的超供站数量，m是超需站数量。基于上述定义，我们构造了成本矩阵C，即
在这里插入图片描述
式中， $c_{ij}(i=1，2…，n，j=1，2，…m)$ 是供过于求的车站i和供过于求的车站j之间的路线距离。然而，在某些情况下，最大总供给小于最小总需求，或者最小总供给大于最大总需求，从而导致运输不平衡问题。为了在这些情况下找到最优解，我们添加了一个虚拟供应站或需求站，将不平衡运输问题转化为平衡运输问题，注意与虚拟站相关的自行车运输在现实中不会发生。因此，在上述情况下，一定会出现不平衡。为了使这些站点最接近它们的平衡状态，我们应该使虚拟站点提供或接收的自行车数量最小化，因此与虚拟站点相关的运输成本应该比真实站点之间的任何其他成本都大得多。
在这里插入图片描述

5.1.3 Problem Formulation and Rebalancing T ask Generation

基于上述定义，我们给出了自行车运输问题的公式。该问题的目标是在重新平衡后，不平衡的站点应得到平衡的约束下，使运输成本最小化。
在这里插入图片描述
其中， $x_{ij}$ 是从供过于求的站i到供过于求的站j再平衡的自行车数量。由于自行车数量是一个整数，我们使用整数线性规划方法来寻找该问题的最优解。特别是，使用MATLAB优化工具箱1中的整数线性规划解算器来寻找最优解。

5.1.4 Participants Incentive Design

任务生成后，我们需要有效地激励潜在用户参与站点再平衡。然而，当前基于用户的方法利用简单的货币激励策略来鼓励用户重新平衡自行车，导致重新平衡计划无效和成本高的问题。因此，我们提出了一种灵活、经济的参与者激励机制，有效地鼓励潜在用户参与站点再平衡.
对于再平衡任务 $T_i$ ，我们将骑乘计划 $R_i$ 的基本奖励定义如下：
$R_i=w \cdot c_i \cdot \frac{n_i}{b_i+o_i}\tag{20}$

式中，ci是重新平衡开始和结束之间的距离，ni是要重新平衡的自行车数量，bi是历史上的自行车人数，oi是历史上的出租车订单数量；w是奖励系数，在某些特定环境中的值是通过问卷调查获得的（详情见附录），而在基本情况下，w是1。

然后，进一步优化了任务生成模型。在站点再平衡中，我们的目标是最大限度地增加参与调度的用户数量，即最大限度地执行覆盖任务。对于每个重新平衡任务，约束条件是要执行的任务数量应小于要计划的自行车数量，因为用户一次只能骑一辆共享自行车,总激励成本小于给定的预算C.。因此，优化问题是
在这里插入图片描述
其中yi表示任务Ti所需的调度自行车数量，c表示每次自行车调度的最大奖励。在本文中，我们根据调查结果[8]取c=5。在我们的调查问卷中，93.3%的参与者在5分钟内选择了预期奖励，因此可以得出类似的结论。

优化后的调度问题也可以用整数线性规划求解，并使用MATLAB优化工具箱中的CVX工具。

5.2 Bike Rebalancing Task Allocation

通过上一节中的再平衡任务生成，我们得到了候选的再平衡任务。下一步是将任务分配给用户以执行循环计划。在任务分配过程中，不仅要考虑用户在当前时间参与调度的好处，还要考虑用户参与下一次骑行调度的好处。由于当前任务分配会影响下一个用户的位置和收入，因此该问题是一个顺序决策问题，适合用强化学习模型来解决。

本文将任务分配问题建模为出租车订单调度问题。[28]提出的智能调度方法用于分配再平衡任务。具体来说，任务分配问题由马尔可夫决策过程（MDP）建模。然后，使用时间差分（TD）算法评估策略并更新状态值函数。最后，通过二元图匹配算法实现调度中用户总收入的最大化。

5.2.1 Markov Decision Process Definition

在本文中，再平衡任务的分配被建模为马尔可夫决策过程：
Agent：我们将整个任务分配平台建模为一个Agent，它决定是否将重新平衡任务分配给用户。
State：我们将用户的状态定义为当前时空状态。空间状态是当前热点区域r。时间状态每30分钟作为状态t，然后时空状态s=（t，r）。
Action ：有两种操作a，一种是将任务分配给用户，另一种是不将任务分配给用户。
State T ransition and Reward：在用户被分配到再平衡任务后，他将骑自行车到指定的位置，他的状态将发生变化，并获得相应的奖励R。但是，如果用户没有被分配到再平衡任务，其状态将保持不变，并且没有奖励。

在完成马尔可夫决策过程的定义后，下一步是通过策略评估找到最优分配策略，以最大化参与调度的用户的累积预期收益。

5.2.2 T emporal Difference Maximizes Expected Reward

为了学习最优策略，我们使用基于时间序列差分算法的状态值函数Vπ（s）来学习状态值。首先，定义两种操作的目标状态值。当任务未分配给用户时，将用户的当前状态值V（s）定义为，将未来状态值定义为V（s0）。因为用户没有参与调度，所以奖励为0，目标状态值为：

在这里插入图片描述
两个动作下的状态变化如图6所示。将用户的当前位置设置为区域r0，当前时段设置为t0。当动作不匹配时，因为没有骑行计划，用户的下一个位置区域r1与原始位置相同，奖励为0。当动作匹配时，用户将从区域R0循环到再平衡任务结束，然后循环到下一个时段t0+∆t将是区域r2，并获得奖励R。
在这里插入图片描述
对于任务分配周期，需要分配n个重新平衡任务。再平衡任务的分配可以看作是一个二元图匹配问题。通过将二元图边的权重设置为二元图边的增量，可以优化整体的状态值的长期效益。因此，根据当前和长期的利益，再平衡任务分配问题被建模为加权二元图最大匹配问题，该问题可以用匈牙利算法(Hungarian algorithm)求解。数学模型是
在这里插入图片描述

6 EVALUATION

在本节中，我们首先介绍实验设置，然后介绍趋势预测和站点再平衡的评估结果

6.1 Experiment Settings

6.1.1 Dataset

为了评估所提方法的性能，在实验中使用了两个真实数据集：纽约花旗自行车数据集和厦门摩拜数据集。此外，为了更准确地建模，我们获得了一个密切相关的上下文数据集，包括两个城市的POI数据集、天气数据集和出租车轨迹数据集。
纽约花旗自行车数据集1是一个停靠的自行车共享数据集。数据收集时间为2015年3月1日至2019年4月30日，包括1005个车站和62219223个Bikcle骑行记录。厦门摩拜数据集是一个无码头的自行车共享数据集。数据收集于2017年6月1日至2017年10月31日，包含231730001453条骑行记录。数据集包括开始时间、开始位置、停止时间、停止位置等，详情如表1所示。
在这里插入图片描述

纽约市和厦门市的POI数据分别来自纽约公开数据2和Amap搜索服务API3,对地理位置1km范围内的POI类别进行统计，获取每个区域对应的POI类别信息。纽约市和厦门市的天气数据分别来自国家气象服务1和Amap天气查询API2。天气数据包括天气状况、温度、风向、风力、空气湿度。POI数据和天气数据可以帮助我们更准确地预测自行车需求趋势。纽约出租车轨迹数据3和厦门出租车轨迹数据主要包括出租车ID、行驶速度。驾驶方向、时间信息、纬度、经度、海拔以及出租车是否在运送乘客。出租车轨迹数据可以帮助我们选择参与车站再平衡的潜在参与者，并计算再平衡激励。

6.1.2 Evaluation Metric

我们将趋势预测与地面真实数据集进行了比较，以评估预测方法的准确性。具体来说，我们在趋势预测中使用了两种常用的评估指标，包括（1）均方根误差（RMSE），（2）平均绝对误差（MAE）。它们的定义如下：
在这里插入图片描述

为了衡量车站再平衡方法的绩效和用户激励，我们使用系统效用、平均奖励和用户的平均乘车距离作为评估指标。系统实用程序表示平衡站点数与站点总数的比率。系统效用的价值越大，可以正常租用和归还自行车的站点越多，用户体验越好。我们将N定义为自行车站的总数， $U N^{(k)}（A）$ 定义为第k个调度期间算法A调度后的超需求站的数量。我们在第5章中详细描述了过度需求站的情况。K是总调度次数，单个调度的平均系统效用如下：
在这里插入图片描述
平均奖励指用户参与再平衡任务后获得的平均奖励.定义$R^(k）（A）是在第k次调度期间，算法A调度后所有用户的总报酬。K是总调度次数，平均奖励如下：

在这里插入图片描述

平均骑行距离定义为参与再平衡任务的用户的总骑行距离与骑行次数之比，单位为km。我们定义 $D^{(k)}（A）$ 是第k次再平衡期间的总骑行距离，那么参与再平衡的用户的平均骑行距离如下：
在这里插入图片描述

6.1.3 Parameter Settings

在热点需求预测实验中，我们选择80%的数据集对每个模型进行训练，剩下的20%作为验证集和测试集。Adam optimizer被选中进行培训。最大历元设置为1000，批量大小为64，学习率为0.0001。我们还使用了提前停止机制，以避免过度装配，提前停止长度设置为100。提前停止耐心设置为0.1。此外，GCN的K阶多项式参数设置为2，GCN隐藏层数（隐藏层数）设置为3，LSTM单元数（单元数）设置为32，完全连接的层单元数设置为64。我们将每个实验重复100次。

在站点再平衡实验中，根据不同的骑行环境（包括天气条件、时段、功能区等）动态调整奖励金额，生成合理的骑行任务，我们设计了一份调查问卷（详情见附录），调查自行车使用者参与各种情况的意愿，以确定奖励系数w。我们招募了30名年龄在18至48岁之间（VG=29.5）的使用者参与我们的调查。他们是经常骑自行车旅行的主要用户。然后我们计算系数w，如下所示：
$w=\frac{5-mean_score}{2.5}\tag{35}$
其中5代表一个问题的满分，2.5代表正常情况下的分数。mean_score是问卷答案的平均分数。
根据问卷调查的结果，我们可以获得一个意愿调整表（如表2所示），用于不同背景因素的影响，作为我们ILP-TD再平衡策略的参数。
在这里插入图片描述

6.1.4 Baseline Methods

在趋势预测和站点再平衡方面，我们将我们的方法与各种基线方法进行了比较。对于趋势预测，我们将BikeNet与以下基线进行了比较：
|算法|简介|

ARIMA
XGBoost
GBRT
DCRNN
ST-ResNet
STGCN
STMGCN
对于站点再平衡，我们使用以下三种基线站点再平衡方法[33]进行对比研究：
无再平衡（NR）：不要在自行车共享系统上执行任何再平衡操作。根据每个时期各车站的供需情况，计算自行车共享系统的平均效用，作为比较基准。由于用户不参与重新平衡，用户的平均奖励和骑行距离始终等于零。
随机再平衡（RR）：根据趋势预测，我们将车站划分为供过于求区域和供过于求区域。以供过于求的区域作为再平衡的起点，随机选择一个供过于求的区域作为再平衡的终点。由于用户的骑行距离可达10km，当随机分配的再平衡任务距离超过10km时，被认为用户不会参与重新平衡。最后，我们重复10次随机再平衡，并在随机再平衡方法下计算平均系统效用、平均用户奖励和骑行距离。
贪婪再平衡（GR）：同样，根据趋势预测，我们将车站划分为供过于求的区域和供过于求的区域。如果用户所在的区域是供过于求的区域，则可以将其用作重新平衡的起点。然后，选择步行距离和骑行距离最短的区域作为重新平衡的终点。如果贪婪方法分配的再平衡任务距离超过10公里，用户将不会参与此再平衡。然后，计算多轮贪婪再平衡下每个评估指标的结果。
模型预测控制（MPC）：Pfrommer等人[34]提出了一种基于模型预测控制（MPC）[35]的激励机制，该机制动态选择向客户提供的付款，以改变他们前往附近车站的旅程终点，从而提高整体服务水平。为了制定一个可处理的MPC问题，他们近似地认为参与再平衡的客户的行为与价格激励呈线性关系。在地平线的每个时间段内，系统的状态被定义为每个车站的自行车数量。控制输入是每个车站为转移到相邻车站而提供的价格激励。目标函数定义了实现的系统状态的质量和支付激励的成本之间的权衡。该解决方案为客户提供价格激励。

6.2 Evaluation Results

panbaoran913

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【论】RedPacketBike: A Graph-Based Demand Modeling and Crowd-Driven Station Rebalancing Framework for B

自行车共享系统已在全球部署。高质量的自行车共享系统的关键问题之一是重新平衡城市范围内的车站，以保持自行车的可用性</font>。传统策略，如卡车和志愿者根据历史骑行记录重新定位自行车，通常在固定路径和有限容量下运行，缺乏灵活性，无法应对高度动态和上下文相关的骑行需求，并且通常存在高成本和长时间延迟。在这项工作中，我们提出了RedPacketBike，这是一个激励驱动、基于人群的站点再平衡框架，可以根据利用深度学习技术对自行车需求的对自行车需求的准确预测，从混合车队（例如，志愿者车手和租用卡车）中有效招募参
复制链接

扫一扫