Efficient Adaptive Matching for Real-Time City Express Delivery-CSDN博客

本文链接：https://blog.csdn.net/Zjkorigin/article/details/143380980

Efficient Adaptive Matching for Real-Time City Express Delivery

摘要

城市快递服务（又名最后一英里递送）在近年来变得更加突出。亚马逊、京东、菜鸟等多家物流巨头都部署了智能快递系统，以应对日益增长的包裹配送需求。现有的工作是采用排队或分批处理的方式将包裹分派给快递员。但是，这些方法没有充分考虑包裹和快递员的分布情况，导致任务分配质量不高。该文研究了城市实时快递服务中基于收益最大化的配送匹配问题。给定一组快递员和一个包裹收集任务流，我们的问题旨在将每个收集任务分配给合适的快递员，以最大化平台的整体收益。证明了该问题是NP-hard.为了有效地解决该问题，提出了一种时间感知的批量匹配算法，在每个滑动窗口内提供高质量的快递任务匹配。我们进一步从理论上分析了匹配逼近界。此外，我们提出一种有效的深度强化学习方法，以自适应地决定滑动窗口的大小，以获得更好的匹配结果。

引言

在这里插入图片描述

存在站s1和两个信使c1和c2。首先，c1装载包裹d1、d2、d3，而c2装载包裹d4、d5、d6，以根据各个路线进行递送（即，c1为红色实线，c2为蓝色实线）。现在假设当c1和c2出发前往目的地d1和d4时，平台收到两个包裹收集请求r1和r2。由于r1靠近c1的路线，r2靠近c2的路线，平台安排c1收集r1，安排c2收集r2。否则，c1和c2可能无法完成它们的包裹递送（即，投递完所有包裹并及时返站）。

城市快递配送问题本质上是一个任务分配问题。当前与任务分配相关的工作可以分为两种类型：
i）即时分配，系统在每个任务到达时立即将其分配给合适的信使。如果没有信使可以为任务服务，它将等待，直到合格的信使出现或任务的截止日期已经过;
ii）批量分配，系统定期从任务队列中批量提取任务，将它们与当前可用的信使进行匹配，并找到任务和信使之间的最佳分配。对于当前批次中未分配的任务，将在下一批次中重新分配。

然而，这两种方法都有问题。关于即时分配方法，它很容易实现，但可能不会生成高质量的匹配结果[12]，[13]。虽然批量分配方法可以在一定程度上提高匹配结果的质量，但在实时场景中手动调整批量大小以获得更好的结果并不容易。此外，优化平台的收益是大多数商业平台的主要关注点之一。然而，现有的研究主要集中在提高计算效率，而不是增加平台的收入。

本文研究了一个基于自适应滑动窗口的城市实时快递配送问题。在RTDW问题中，包裹集合流真实的进入平台。该平台通过考虑若干约束（例如，时间、容量和绕行），并旨在最大化平台的收入。然而，由于包裹集合在平台中随机出现，因此调度处理是高度动态的。因此，RTDW问题有两个关键挑战需要解决。“首先，考虑到一组快递员和一组包裹收集任务，如何高效地将它们与质量保证相匹配的问题是很难解决的。其次，滑动窗口是实时场景中常用的处理策略，在许多现有的工作中得到了广泛的应用，但如何动态地确定滑动窗口的大小以获得更好的匹配效果仍然是一个难题。针对上述两个问题，提出了一种基于时间感知的批量匹配算法（TBM），该算法保证了匹配结果在2-近似范围内.针对后一个问题，在TBM算法的基础上，提出了一种基于深度强化学习（DRL）的优化算法，该算法能够自适应地确定滑动窗口的大小，以获得更好的匹配效果。

本文贡献：
1. 城市快递自适应匹配框架，包括配送任务、揽收任务和快递员三个入口。基于快递员的调度约束，我们正式定义了一个新的RTDW问题，其目的是通过分配给每个快递员合适的收集任务，以最大限度地提高平台的收入。
2. 提出了两个有效的算法SMA和TBM解决RTDW问题。SMA是一种贪婪的方法，可以快速找到适合每个收集任务的信使。在此基础上，提出了一种基于历史收集任务分布的滑动窗口划分策略。结合这种划分策略，我们提出了一个有效的算法TBM找到更好的匹配结果在滑动窗口下的2-近似界的质量。
3. 进一步提出了一种高效的基于DRL的优化，该优化配备了新颖的状态表示，可以自适应地确定滑动窗口大小，以获得良好的平台长期收入。

问题定义

1. 基本概念

站点集合：S
快递员集合：C
公路网：G=(L,E,W) l属于L，代表交叉路口，e12属于 E，代表两个路口（l1,l2）之间的边，
w12,表示边e12上的权重。
站点s=（ls,Cs,Rs）其中ls属于L，代表站点的位置，Cs代表该站点雇佣的快递员数量，Rs代表站点服务的区域。
分配任务： γ =（lγ,tγ），从站点取出包裹必须在时间tγ之前送到位置lγ。
收集任务：λ = （bλ ,lλ ,tλ ,ρλ ），包裹在时间bλ 出现，位置在lλ ，
必须在时间tλ 之前收集到该包裹，收取费用为ρλ 。
快递员：c = （lc,sc,kc,tc,）lc是快递员当前位置，sc是快递员属于的站点，kc是快递员携带包裹的容量，
tc是快递员返回站点的截止时间。

快递员通常每天从他们所属的站点接收几批交付任务。快递员应完成自己当前批次的投递任务，并在下一批次开始前返回自己的站点。平台动态安排快递员完成流水到达的揽收任务。请注意，每个快递员c在离开站点时会分配一组交付任务，在交付任务过程中会分配一些收集任务。收集任务和交付任务都必须在时间t之前返回站点，并完成。

快递员的安排：快递员c属于C，Sc = {l1,l2,....lm},包括一组位置集合，这些地点是交付任务或收集任务到达的地点，

调度Sc是有效的：当且仅当对于分配给快递员c的任何收集/递送任务，快递员c可以满足其截止期限约束，并且剩余的收集和递送任务的数量在任何时候都不能超过其最大容量kc。

快递员c完成收集任务，为平台带来的收益：
在这里插入图片描述

收益 = 赚的钱 - 成本

在这里插入图片描述

RTDW问题就是最合理为快递员分配任务，旨在大化平台的收益

模型框架

在这里插入图片描述
本文提出了一种新的两阶段解决方案框架，包括批次划分和批次匹配解决RTDW问题。基于此解决方案框架，我们提出了三个快递员任务匹配的解决方案。

1. 解决方案

为了解决RTDW问题，提出了一个新的解决方案框架，包括批次划分和批次匹配，如图2所示。最初，客户将其请求的收集任务发送到服务器，而快递员报告其当前状态（例如，位置、容量和调度）发送到服务器。服务器接收到采集任务后，根据一定的划分策略，将采集任务划分为一系列批次进行匹配（Step1）。服务器根据批量的先后顺序，将揽收任务与可用快递员进行批量匹配，使平台收益最大化，而可用快递员和未匹配的揽收任务则返回流中进行下一次批量匹配，过期的揽收任务将从服务器中丢弃（step2）。最后，将匹配结果分别通知给快递员和客户。

2. 服务区域划分

RTDW问题是NP-Hard，每天在一个城市中对大量的快递员和收集任务进行实时分配是非常具有挑战性的。为了降低计算复杂度，我们将整个城市划分为一组不相交的服务区域，并分别关注每个服务区域。这种分工策略也带来了实际的好处。

在本文中，我们划分的道路网络成一组服务区域的K-均值算法，这是最常用的聚类算法之一。更具体地说，我们使用的K-均值算法分类的道路网络的顶点到k个独立的空间集群根据其地理分布。相应地，整个城市被划分为k个独立的服务区域，其中任何两个服务区域彼此不重叠。

在这里插入图片描述

如图3所示，图3a显示了成都市的道路网络，图3b显示了通过K均值算法划分的成都市的服务区域，其中每种颜色代表一个服务区域。在划分服务区域的基础上，将站点设置在每个服务区域的中心。具体来说，对于每个服务区域，我们选择与其他顶点的距离之和最小的顶点作为服务区域的中心。

3. 顺序匹配方案（SMA）

在这里插入图片描述
首先一组收集任务和可以派发任务的快递员
然后，从这些快递员中筛选出可用的快递员（能在约束时间范围内和快递员的容量约束下完成收集任务）。
最后根据快递员的位置和站点的位置，找到最近的快递员来派送该站点的任务。

4.时间感知批量匹配解决方案

SMA算法实际上是将流中的每个收集任务作为一个批处理，没有考虑根据收集任务的分布情况进行批划分，导致匹配效果不佳。在本节中，我们提出了一种高效的时间感知批量匹配（TBM）算法来解决RTDW问题。采用滑动窗口将采集任务流划分为合理大小的批进行匹配，相对于SMA算法提高了解的质量。

在这里插入图片描述

提出了一种新的滑动窗口划分方法，该方法由离线模型中的DBSCAN算法[22]实现。简单地说，DBSCAN算法根据历史任务的截止期分布将全天划分为一系列滑动窗口。划分滑动窗口后，我们根据划分的滑动窗口将收集任务流拆分为一组批次。然后，我们调用算法2来为每批收集任务找到合适的快递员。对于当前批次中未分配的收集任务，我们将在下一批次中为其分配合适的快递员。与现有的等长滑动窗口处理方法[15]相比，该方法充分利用了历史订单的分布信息，能够更合理地确定采集任务批次的大小。利用划分的滑动窗口，对于每个滑动窗口，我们使用基于组的贪婪策略来迭代地匹配信使和收集任务，确保匹配的质量在2-近似界之下。在这里插入图片描述

5.基于DRL的解决方案

我们在TBM算法中提出的滑动窗口划分策略提高了任务分配的质量，但在实际应用中我们观察到了一些违背直觉的情况，例如滑动窗口中的收集任务和快递员由于空余容量不足无法实现任何匹配。受此观察的启发，本节中我们使用具有未知参数的马尔可夫决策过程模型（MDP）[24] 来对滑动窗口决策过程建模，并采用基于DRL的方法根据多个组合特征自适应地确定滑动窗口大小。
在这里插入图片描述

在这里插入图片描述

与 TBM 算法相比，基于 DRL 的算法可以根据快递员和收件任务的时空分布及供需关系合理地确定滑动窗口大小，从而在质量上取得更好的结果。尽管我们需要更长的时间进行离线训练决策模型，但值得的是我们可以在短时间内获得高质量的结果。此外，文献 [26] 研究了一个基本的二分图匹配问题，即 DBGM，其中二分图中的每个节点具有持续时间并动态到达。他们通过仅考虑时间约束简化了 DBGM 问题，并假设在二分图中每侧的每个节点最多只能匹配另一侧的一个节点。然而，在二分图匹配的许多应用场景中，位置和容量的约束非常重要，在现实场景中不可忽视（例如拼车、食品配送、物流）。虽然我们的 RTDW 问题也是一个动态二分图匹配问题，但与 [26] 相比，它需要同时考虑快递员容量、包裹位置以及交付或收集的截止时间等许多实际因素，使得 RTDW 问题更加复杂。由于 RTDW 问题的动作和状态空间比 DBGM 问题更复杂，我们使用 DQN 来解决 RTDW 问题，而不是 [26] 中采用的 Q-learning，以避免巨大的计算和存储成本。此外，不同于 [26] 中仅考虑二分图中两侧节点数量来表示环境状态，我们的工作综合考虑了五种状态特征，即快递员数量、收件任务数量、容量、位置分布和任务完成时间，能够很好地描述环境，从而使得滑动窗口划分更加精准。我们的实验确实表明，我们的 DRL 算法在平均耗时、平均收益和平均完成率方面优于文献 [26] 提出的 RQL 算法。

实验

数据集：成都和纽约的出租车轨迹和乘客下车点和时间。

将上、下车点和时间看作包裹的收集和派送，时间看作截至要求的时间。

参数设置

在这里插入图片描述

对比试验所占内存

在这里插入图片描述

1.成都数据集

滑动窗口的影响
在这里插入图片描述

在这里插入图片描述

图 a、e、i:随着快递员的配送任务数量变大，快递员所需要的时间变大，但总体来看DRL算法的时间最低，并且收入越来越大，在图i中完成率虽然下降，但依然最高。
图b、f、j：随着滑动窗口变大，快递员所需要的时间变大，但总体来看DRL算法的时间最低，并且收入越来越大，在图i中完成率虽然下降，但依然最高。
图c、g、k：随着快递员的收集任务数量变大，快递员所需要的时间变大，但总体来看DRL算法的时间最低，并且收入越来越大，在图i中完成率虽然下降，但依然最高。
图d、h、i:图d中快递员所需要的配送时间不是最大，属于中等，图h中DRL算法的收益最高，图i中DRL算法的未完成率最高。