DiDi Food中的智能补贴实战漫谈

滴滴技术

于 2020-08-11 21:41:34 发布

阅读量6.7k

点赞数 7

文章标签：算法大数据编程语言机器学习人工智能

本文链接：https://blog.csdn.net/DiDi_Tech/article/details/107948064

版权

本文详细介绍了DiDi Food如何运用智能补贴算法，通过经济学原理阐述差异化定价的重要性，探讨补贴问题的定义，以及增量预估与补贴分配的策略。文章还分享了在DiDi Food中实施的智能补贴架构和流程，以及Uplift模型的多种方法，包括Two Model、Single Model、X-Learner和R-Learner。实验结果显示模型在提升ROI和优化补贴金额方面取得积极效果，未来规划包括模型在线化、精度优化及用户长期价值建模等方向。

摘要由CSDN通过智能技术生成

桔妹导读：随着因果推断理论体系（Casual Inference）的建立和补充，智能营销/智能补贴近年来在业界有了越来越多的落地成果。滴滴的国际化外卖团队DiDi Food自2020年上半年起开始推进了智能补贴算法在业务场景内的实验和落地，离线和线上效果均取得了一定进展。本文将主要介绍DiDi Food对这个方向上一些探索和实践经验。

本文内容较长，主要会包括以下几点：

1. 差异化定价的经济学原理
2. 差异化定价在DiDi Food中的抓手
3. 补贴问题的定义
4. DiDi Food中智能补贴的架构与流程
5. 增量预估
6. 分发策略
7. 实验效果
8. 未来规划
9. 自问自答

差异化定价的经济学原理

提起营销手段，第一个想到总会是差异化定价。而提起差异化定价，人们的第一印象往往是价格歧视等类似的负面印象。其实，差异化定价的本质还是在为消费者，用户和社会创造更多的价值。这背后是有着一套在收益管理学（Revenue Management）下最直观明了的经济学原理的。

举个例子，图中所示为某商品需求（Demand）随价格（Price）变化的趋势，其中该商品的成本为$5。简单计算可以得知在单一定价下，图中：

A：所示面积即为总利润

B：所示面积为消费者剩余（Consumer Surplus）

C：所示面积即为潜在收益空间

这里的消费者剩余是一个经济学上的概念，简单理解为消费者对于商品的价值评估减去商品价格，比如，一份黄焖鸡米饭，我认为它值20块钱，而它的标价是15块钱，那么20-15=5元就是消费者剩余。经济学中，一次交易只有在消费者剩余>=0的情况下才会发生。这里更深层的理解我们不去深究，简单一点我们可以将消费者剩余理解为游戏中的快乐度。一次交易中的消费者剩余越大，消费者对本次消费行为就容易觉得满意和高兴。从这个角度出发，消费者剩余本身也是商品交易行为为社会创造的价值的一部分。

那么当我们对该商品进行差异化定价，即增加了一个新的定价$7后，

A2：所示面积即为增加的总利润

C2：所示面积即为增加的消费者剩余

通过差异化定价，整个交易的总利润（A1+A2>A）增加了，企业和平台可以利用多出的总利润提升自己的产品与服务质量，为用户创造更多的价值。与此同时，更多的用户买到了商品，享受到了服务，整个交易的消费者剩余（C1+C2>B）也增加了。

而这，也恰恰是对差异化定价产生的社会价值最直观的解释。

差异化定价在DiDi Food中的抓手

DiDi Food作为国际化外卖平台，其用户面对的商品定价更多层面上是一系列服务和商品的综合定价：

P=Pi+Pd−Subsidyc

其中，Pi为菜品标价，Pd为配送费，Subsidyc为C侧补贴

这也为我们在商户侧（B），用户侧（C），骑手侧（D）三端进行差异化定价提供了抓手。

可以看到，在B侧，由于平台侧不可能拥有菜品的定价权，我们的差异化定价的选择相对比较单一并且过于间接，而且在本质上也无法达到差异化定价的目的。而在D侧，配送费的动态定价除了可以帮助平台调节供需外，其本身无疑也是一个比较有力的差异化定价的手段。但是它的使用却有着显而易见的约束，比如为了避免在配送费定价的时候产生所谓的“大数据杀熟”，我们一般不会使用用户维度的特征，而且在每一次动态调节的背后，都会有相应的价格Buffer层做调价缓冲。

因此，相对于B侧的间接影响和D侧的诸多约束，通过对用户发券进行补贴无疑是一种更为直接和更为有效的差异化定价手段。

补贴问题的定义

与机器学习传统三大方向【推荐，搜索，广告】不同，补贴问题中最核心和最关键的一点是补贴这个行为需要付出【成本】。这个概念的引入使得我们必须要将对这部分【成本】的使用效率作为一个核心指标，也就是所谓的「ROI」。

也就是衡量增加的补贴【成本】所带来【增量】指标收益。

对于这个指标的优化，一个直观的解法就是随机AB实验，通过足够多的，设计逻辑严密的，随机性完美的AB实验，我们一定可以在这个指标的优化上取得令人满意的结果。但是这个方法在具体业务中的问题是它太过于奢侈了，无论是在预算还是在时间上。

因此，为了可以高效低廉地求解这个问题，我们可以将优化目标拆解为两个子问题：

预估干预的Action相比于没有干预时带来的【增量】
在存在多种干预【Action】和已预估了它们【增量】的情况下，如何为每个用户合理分配【Action】以期望达到全局最优

对于问题a：

与传统机器学习解决的问题不同，子问题a所面临的一个终极难题是，我们想要预估的这个【增量】在观察数据中是没有真值的。如果是一条被干预后的样本，我们只能观察到它被干预后的指标而无从得知它不被干预时的指标。同样，如果是一条未被干预的样本，在观察数据中我们也无法得知它被干预后的表现是怎样的。这也正是在因果推断理论中因果关系阶梯的第三层所提到【反事实 (Counterfactuals)】。而对这个“增量“预估的问题，业界也提出不少了的解法，我们会在之后尝试做出更详细的介绍。