A Framework for Multi-stage Bonus Allocation in meal delivery Platform

最新推荐文章于 2024-08-10 07:14:43 发布

春凋零之时

最新推荐文章于 2024-08-10 07:14:43 发布

阅读量730

点赞数 1

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/u013239656/article/details/126642418

版权

概览：
背景：处理美团外卖无骑手接单时间过长导致乘客取消订单的问题。订单的取消对客户的复购率以及美团送餐平台的声誉都是非常不利的。专项资金鼓励骑手接受更多的订单。

核心：处理一个送餐平台的多阶段奖金分配问题。

描述：在有限的奖金预算内最大化接受订单的数量。该框架由半黑箱接受概率模型、基于拉格朗日双基动态规划算法和在线分配算法组成。

半黑箱接受概率模型：用于预测分配给订单的奖金与其接受概率之间的关系，

基于拉格朗日对偶的动态规划算法：旨在基于历史数据集计算每个分配阶段的经验拉格朗日乘数

在线分配算法：使用在离线部分获得的结果来计算每个订单的奖金

背景：

当顾客通过美团应用点餐后，对应的订单信息立即发送到送餐平台。平台的处理逻辑为：

首先，定价系统根据订单属性，如餐厅和客户位置、客户端服务难度等确定订单的配送价格;

其次，将订单信息，包括品类、价格、以及预计送货时间推送给附近的骑手；

第三，一个自信的骑手接受订单，从餐厅取餐，并将其送到客户。

但是，如果送货价格不够有吸引力，使其长期不被接受，客户可能会取消订单（这种取消订单称为NA-cancelled订单）。

NA-cancelled订单是平台差评的主要原因，以美团为例，每天约有3万条差评，NA-cancelled订单导致的差评率超过 55%。
每天大约有16.5万份NA-cancelled订单发生，这意味着骑手的收入减少，餐馆的食物浪费增加，送餐平台的声誉下降。每年NA-cancelled订单的约数十亿元人民币。
通过对历史数据的分析，导致NA-cancelled订单的主要原因有两个：

一方面，骑手数量充足的情况下，部分订单的配送价格对司机的吸引力不够;
另一方面，骑手的数量不足，在某些情况下，骑手数量不足以服务进来的订单，例如在暴风雨天气下缺乏司机在线（不考虑）
针对NA-cancelled订单一般的处理方法：

按照经验法则分配奖金。十分钟内未被接受的订单分配3元，20分钟分配6元，以此类推。（易于实现，但由于在每个单一决策阶段单独为所有订单提供相同的价格，缺乏全局规划，未能取得令人满意的性能）
多阶段决策：订单的生命周期可以分为多个决策阶段，每个阶段的订单可以是接受、不接受或取消。如果订单没有被骑手接受或在特定的阶段没有被消费者取消，它将被过渡到下一个阶段。一旦它被一个骑手接受或在特定阶段被消费者取消，它的生命周期就停止了。如果超过50分钟没有司机接单，送餐平台将强制取消订单。虽然大多数订单在前几个阶段会被接受，但仍然有相当数量的订单直到最后几个阶段才被接受。直观地说，一个更好的奖金分配策略应该是基于多阶段信息的全局优化。（例如，订单生命周期为50分钟，分配阶段数为10个，奖励分配决策每5分钟确定一次）
png
模型
接单和取消模型
obj：最大限度地增加接受订单的数量。目标函数是在订单接受概率的基础上最大化接受订单数量的期望值。使用多个分配阶段，来自前一个分配阶段的未接受且未取消的订单将过渡到下一个分配阶段。每个节点表示一个分配阶段。设p1为第一次分配阶段的接受概率，q1为第一次分配阶段的取消概率。相应的，1-p1-q1是过渡到第二分配阶段的概率。因此，订单进入|T|阶段的概率
在|T|阶段接受订单概率为
即订单被接受的概率为:

假设一：如果订单仍然在等待列表上，则阶段t的订单的接受概率仅由阶段t的订单的价格决定。其他阶段的订单价格和其他订单价格不影响本订单接受概率。

接受概率：半黑箱预测模型。

假设二：接受概率模型符合

其中，α和β由神经网络等机器学习模型得到。输入的特征分为两部分，分配给每个订单的奖金c和订单相关特征x。订单相关特征是订单的内在属性，包括客户和餐厅的地理位置、用户下单后时长，预计到达时间(ETA)、与骑手相关的供需影响、骑手的空间信息(如餐厅2公里内司机数量 )等。（订单相关特性包含尽可能多的信息，除非当地法律禁止）

根据历史数据，在每个分配阶段t，为每个订单i构造训练集；同时学习α和β，但使用不同的隐藏层(见图4)。在实践中,奖金只分配给少数的订单,这样训练集的样本分布是不均匀的。因此，我们将训练集分为两种批次ci,t>0,和正常批次ci,t0。β是由订单相关特征x决定的。因此，为了提高模型的性能，α和β的隐藏层使用不同类型的批次进行更新。更具体地说，奖励批次用于更新隐藏层0和层1的参数，正常批次用于更新隐藏层0和层2的参数。注意所得α应该小于0，奖金越多，接受概率越大。

订单接受概率模型如图 5所示。即使两个订单的交付奖金相同，它们接受概率可能不同。当奖励为0时，订单A的接受概率(超过95%)远远高于订单B(约45%)。假设奖励2RMB，订单A的接受概率增量为0.01，而阶B是0.38。因此，动机是通过向订单B分配奖励来增加总接受概率(选择弹性高的订单发放奖金）

|T|阶段的订单取消率q|T|也影响决策，也需要预测。选取所有进入|T|阶段的订单作为完整的样本集。样本的特征是订单进入阶段的相关属性，如距离、环境、天气、等特征。标签是现阶段取消的订单标记为1，其他订单标记为0，训练方法为经典的XGBoost模型。然后在此阶段对模型的预测值进行分解。将每一个0.05的预测值区间划分为一类，对每一类订单进行频繁采样，并统计区间内正样本的比例。这个比率被认为是一个预测的值，它是该订单在区域的实际取消概率。

整体模型

目标函数(3)使总接受概率最大化，

约束 (4)表示总配送奖金成本的期望值应在给定的预算b内，

约束(5) 将配送奖金ci,t在给定的上限内。

求解方法

离线优化：基于对偶拉格朗日的动态规划
把问题看作是两个子问题的组合。首先，我们将总预算分配到每个阶段，然后在每个阶段内，为每个订单计算最优奖金。前一个子问题可以处理动态规划问题，后一个子问题是一个标准的单阶段分配问题，用拉格朗日对偶理论解决。

如果在1~t-1阶段没有补贴，阶段的待分配订单表示，则子问题表示为：

在动态规划的递归过程中，子问题：定义一个单阶段奖金分配问题

通过解决单阶段奖金分配问题B~ = k,

其中G’是下个阶段的最优分配函数，令为x

1）降维，动态规划中G和G’的形式不同，一个简单的方法是将向量映射到一个预定义的投影矩阵下的m维空间，例如此时G’可以表示为形式为了使计算简单，H [1, 1, … , 1],u=示接受或取消订单的平均概率。则

2)递归

3）拉格朗日对偶

(9)~(11)求解方法为对偶拉格朗日，求解方法为二分法。

在线分配算法
带入拉格朗日乘子，计算

周期控制
在月初，总预算由业务计算出来，但未来实际的月度订单规模和分布情况是未知的。幸运的是，历史数据显示送餐平台的月订单分布相对稳定，线下历史订单与线上订单偏差较小。

为了进一步满足不确定在线场景下的预算约束，采用了一些简单而有效的周期控制策略。

第一种策略是每天执行一次线下决策系统，选择的训练集是从当天开始的上月订单数据。线下训练的目标预算是用这个月的剩余预算除以这个月预计未来的订单数，再乘以过去30天的总订单数。

第二种策略是对实时支出【A soft-decision based two-layered scheduling approach for uncertain steelmaking-continuous casting process.】采取一些简单的控制方法。例如，当总实时支出占总预算的比例大于110%时，我们会将奖金降低到一定的比例比例。当比例低于 90%时，我们将增加奖金。上下调整比例与总实时支出与总预算的差额呈正相关。这两种策略确保在线实时支出可以控制在预先设定的预算范围内。

实验
八个分配阶段，两个分配阶段之间大约有六分钟的时间间隔