Towards Capacity-Aware Broker Matching: From Recommendation to Assignment

摘要

在线房地产平台越来越受欢迎,其核心问题是撮合经纪人与客户进行潜在的房屋交易。主流平台通过top-k推荐来匹配经纪人。我们通过大量的数据分析观察到,这种top-k推荐往往会使顶级经纪人过载,这明显降低了他们的服务质量。在本文中,我们建议通过从推荐到分配的范式转换来避免代理匹配中的这种过载。为此,我们设计了具有上下文强盗(LACB)的学习分配,这是一种数据驱动的容量感知分配方案,用于经纪人匹配,以在线方式估计经纪人特定的工作负载容量,并从全局角度将经纪人分配给客户,以最大化整体服务质量。对来自工业在线房地产平台的合成数据集和真实数据集的广泛评估验证了我们解决方案的效率和有效性。

Intro

在线房地产平台,如Compass1、Zillow2和Ke Holdings Inc.(又名北客)3正在越来越多地利用数据驱动的方法来提高业务和服务质量。这些平台的核心功能是将对购房感兴趣的客户与合适的经纪人相匹配,以获得后续服务。这种经纪人匹配的现状是top-k推荐[2],[3]。以中国最大的在线房地产平台北客为例。当客户端在平台app上点击某房子的详细信息时,app会向客户端推荐该房子关联的三个经纪人(如图1所示)。

通过对在线房地产平台的大量数据分析,我们发现:(1)经纪人工作量有限;(2)top-k推荐机制导致顶级经纪人过载,即超载现象,影响了服务质量和平台的长远发展。具体而言,我们的研究表明,由于top-k机制,如果经纪人每天响应超过40个客户请求,他们的注册率可能会从14.3% ~ 27.5%下降到2.5% ~ 17.8%(见第II-B节)。在这里,经纪人的注册率是服务质量的一个常用指标,它是与他/她注册的客户数量与他/她服务的客户总数之间的比率。在采用topk推荐机制时,我们还观察到马太效应[4]。也就是说,许多请求被顶级经纪人占据,其他人几乎没有机会提高他们的技能。这可能会打击那些被忽视的经纪人,并从长远来看损害平台。

我们认为,超载现象是由于忽略了代理的工作负载容量造成的,这促使我们采用分配[5]-[7]视角来进行容量感知代理匹配。也就是说,与其盲目地向所有客户推荐少数顶尖的经纪人,我们建议首先估算单个经纪人的工作量能力,然后在不压倒经纪人的情况下,从全局角度将其分配给客户。然而,实现broker匹配的容量感知分配面临两个实际挑战。

挑战1:如何以在线方式估计特定于经纪人的工作负载容量?我们观察到不同经纪人的工作负载能力不同(见第二节),因此有必要进行个性化估计。然而,提前收集所有可能工作负载下的代理服务质量数据是不现实的,这使得在线估计工作负载容量成为一种更好的选择。以往的工作负荷容量估计方案[8]、[9]均不支持这种个性化评估的在线学习。

挑战2:如何在容量限制下分配代理以随着时间的推移最大化整体效用?目前的房地产交易量影响到不久的将来,这是很常见的。因此,批之间的代理分配往往是相关的,这使得整体分配代理变得困难。大多数分配方案[10]、[11]都是独立考虑每个批次中的客户和经纪人,因此在多个批次的集合效用方面,它们都是次优的。

为了解决这些挑战,我们提出了具有上下文强盗的学习分配(LACB),这是一种用于房地产经纪人匹配的数据驱动的容量感知分配方案。它通过上下文强盗解决挑战1,实现数据高效和在线个性化容量估计。LACB通过容量感知价值函数克服了挑战2,它同时考虑了经纪人匹配的短期和长期效用。我们的主要贡献和成果总结如下。

  • 据我们所知,我们是第一个发现在线房地产平台顶级经纪人过载问题的公司。大量的数据分析表明,代理的工作负载能力有限,在超载时,它们的服务质量往往会下降,这促使代理匹配从推荐转向分配。
  • 我们设计了LACB,一种用于代理匹配的数据驱动容量感知分配方案。它以在线方式估计特定经纪商的容量,并从全球视角为客户分配经纪人。我们进一步提出LACBOpt,它通过经纪人选择加速分配。
  • 我们对中国最大的在线房地产平台北客的合成数据集和真实数据集进行了广泛的实验。实验结果验证了该方法的有效性。

在本文的其余部分,我们首先识别第二节中的过载现象,并在第三节中阐述问题。
然后,我们将在第IV节介绍我们的解决方案的概述,并分别在第V节和第VI节介绍每个模块。
我们在第7节中提出评估,在第8节中回顾相关工作,最后在第9节中得出结论。

motivation

我们通过北客(中国在线房地产平台)的测量来推动我们的研究。我们观察到一种被称为顶级经纪人过载的现象,其中一些经纪人的任务是处理超过他们能力的请求数量,这最终导致经纪人的服务质量和平台的整体效用下降。

A. Limited Broker Capacity

我们的第一个动机是经纪人的能力有限。与其他服务行业一样,我们假设房地产经纪人的能力有限,即他/她在单位时间内可以提供高质量的服务数量。由于房屋交易中服务质量较低,容易导致客户流失,我们假设经纪人的服务质量会随着服务请求的增加而下降。我们通过下面的测量来检验这个假设。

测量。我们分析了中国两大城市在线房地产平台2021年6月1日至8月31日的数据,以探索经纪人服务质量与能力之间的关系。我们使用经纪人的注册率,即与经纪人注册的客户数量与总服务数量之间的比率,作为服务质量的代理。我们根据工作负载的增加来衡量注册率,即每天服务的请求数量,包括城市和个人级别。

观察。我们观察到,注册率往往随着工作量的增加而下降,下降模式似乎很复杂,而且是特定于经纪人的。

图2显示了随着日请求量的增加,两市券商的平均注册率。

以A市(蓝色区域)为例。如果每天处理的请求数低于40次,则平均注册率为14.3% ~ 27.5%。如果每天要处理40个以上的申请,平均注册率就会下降到2.5 ~ 17.8%。通过使用Welch的t检验,我们发现注册率与每天服务的请求数量在统计上显著相关(p值< 0.0001)。经纪人过多的工作量降低了服务质量,甚至导致客户流失。B市(红色部分)也出现了类似的下降趋势。

•我们进一步研究了在A市处理最多请求的前50名经纪人,其中21人偶尔处理超过40个请求。图3绘制了在City a中工作负载较高的21个broker的注册率。在这21个broker中,随着每天处理的请求数量的增加,他们的注册率呈下降趋势。

•尽管有下降趋势,但从图2和图3可以观察到,注册率和服务请求数量之间的关系趋于复杂、非线性和特定于经纪人的模式。

B.超载的顶级经纪人

我们的第二个动机是,由于目前在线房地产平台的top-k推荐机制,顶级经纪人往往会过载。这是因为该平台列出了排名前k的经纪人,而没有考虑他们的能力,而客户倾向于从平台列出的排名靠前的经纪人中进行选择。我们对这一说法进行如下检验。

测量。分析A市同一在线房地产平台2021年6月的数据,绘制平台推荐经纪人与平台未列出经纪人的工作量分布细表。默认情况下,平台推荐前3名的经纪人(见图1)。

综上所述,我们观察到,之前在线房地产平台使用的top-k推荐机制往往会使顶级经纪人过载,我们称之为顶级经纪人过载问题。超负荷的代理显示服务质量下降,最终导致注册率下降。出现重载问题是因为top-k推荐忽略了代理的容量。

重载现象促使我们从分配的角度重新考虑代理匹配。与其盲目地向所有客户推荐一小群顶级经纪人,我们建议从全球视角为客户分配经纪人,同时考虑顶级经纪人的能力。接下来,我们将把我们的观点转化为一个具有容量意识的分配问题,并在未知工作负载容量的情况下提出有效的代理匹配的实际解决方案。

OVERVIEW OF OUR SOLUTION

为了解决CAA问题,我们提出了基于上下文强盗的学习分配(LACB),它通过上下文强盗学习未知的代理容量,并从全局角度分配代理,以最大化总效用,而不会使顶部代理超载。我们首先介绍LACB的概述,并解释每个功能模块。

LACB包括两个功能模块,容量估计和基于容量的分配。

•容量估计模块根据代理的当前状态,通过神经网络增强上下文强盗来确定每天的工作量容量。The capacity estimation module decides the daily workload capacity according to the broker’s current status by neural network enhanced contextual bandits.

•基于容量的分配模块选择一组满足容量约束的代理,并通过容量感知值函数将其分配给请求。

LACB工作流程如图5所示。它分为两个阶段:估计和赋值。首先,我们观察经纪人的工作状态,通过神经网络增强的bandit来设定经纪人每天的工作量。在分配阶段,我们获取代理的估计容量,并采用容量值函数来指导分配,捕获不同工作负载下代理的长期效用。最后,我们将批处理分配的结果存储为反馈,以改进未来的决策。

V. CAPACITY ESTIMATION

本节介绍我们的容量估计方法。我们将工作负载容量估计器作为上下文强盗,并提出了一种神经网络增强策略来确定每个代理的每日工作负载容量。

A. Basic Idea

在估计代理容量时,我们的方法是由以下三个挑战驱动的。
//
接下来,我们将在后续对设计进行详细阐述。

B. Workload Capacity Estimator as Contextual Bandit

如上所述,通过与房地产平台交互,我们利用上下文匪徒以在线方式学习一个通用的经纪人容量估计器。强化学习(如Q-learning)主要模拟决策对状态的影响。然而,在我们的场景中,代理的内在工作状态不受我们决策的影响,因此Q-learning等方法对容量估计是不可用的。

我们首先快速回顾一下语境bandit。带k臂的bandit广泛用于n批未知环境下的在线决策,其中每个臂代表一个决策。在每个批次中,强盗选择一只手臂(决定)并从环境中获得奖励。然后,它会根据奖励更新决策策略,并尝试在n批中最大化总奖励。上下文强盗进一步允许强盗在每批开始时使用附加信息(即上下文)做出决定。

我们的配方。现在,我们将解释如何以上下文强盗的形式制定工作负载容量估计值。我们将经纪人的候选工作量容量视为盗匪的武器(用C表示),将经纪人的工作状态xb视为上下文,盗匪据此选择一个容量cb∈C,以工作量wb下的日签到率sb作为奖励。工作负载容量估计器与房地产平台交互,房地产平台被视为未知环境。在每个批处理中,房地产平台执行分配算法并显示奖励sb。由于经纪人的工作量wb通常低于其容量cb,我们使用(xb, wb, sb)作为试用三重来更新强盗(工作量容量估计器)的奖励函数。

C. Choosing Capacity with Neural Network Enhanced UCB

在将工作负载容量估计器定义为上下文强盗之后,下一个问题是确定策略,以选择使给定代理工作状态的每日注册率最大化的工作负载容量。

标准UCB算法的一个局限性是对期望奖励与上下文之间线性关系的假设,即Eq.(3)中的fθ(x, c)。因此,在我们的场景中,标准UCB未能描述经纪人的注册率(期望报酬)和工作状态(上下文)之间的非线性关系(见第II-A节)。作为补救措施,我们用神经网络代替线性模型。我们将相应的容量选择策略命名为NNenhanced UCB。

D. Personalized Workload Capacity Estimator

如前所述,上下文强盗只学习所有代理的通用容量估计器,但是工作负载容量估计可能是特定于代理的。我们通过对公式(5)中特定于代理数据的神经网络Sθ(x, c)进行微调,实现了个性化的工作负载容量估计。

具体来说,我们首先在所有经纪人的观测值∪b∈BTb上训练一个基奖励映射函数θbase,即式(4)中定义的神经网络。然后,我们将第一个L−1层θ基复制到经纪人b的经纪人特定奖励映射函数θb。随后,我们冻结了θb的第一个L−1层,并根据经纪人在Alg. 1之后的观察Tb微调最后一个全连接层。这样,我们就获得了个性化的奖励映射功能。

VI. CAPACITY-BASED ASSIGNMENT

现在我们提出了LACB的分配模块,它将估计的容量作为输入,通过考虑容量约束和跨批分配的依赖性进行分配。

A. Batched Assignment as Markov Decision Process

与之前的研究[10]和[17]不同,我们建议通过将分配随时间建模为马尔可夫决策过程(MDP)[14],以更全面的视角匹配经纪人。这样的建模说明了跨批分配的依赖性(即,随着时间的推移,代理的剩余容量),并可能导致更高的总效用。

标准MDP模型包含四个元素:状态、动作、状态转换和奖励。我们将在下面的代理分配上下文中解释这些元素。
//
请注意,我们将批处理分配制定为MDP模型(并采用基于强化学习的解决方案),而不是强盗算法,因为后者不适合状态转换[14]的长期规划。

B. Capacity-Aware Assignment

对于上面的MDP模型,我们利用一个能感知容量的值函数来指导分配。

能力感知值函数。在MDP中通过学习状态[10],[13]的值函数来进行决策是很常见的。在这项工作中,我们定义了一个容量感知值函数V(i, cr),它表示第i批之后代理的期望效用,其中cr是代理的剩余容量。

这种容量感知价值函数捕捉了具有不同剩余容量的经纪人的长期效用。然后,我们使用Q-learning(一种时间开销相对较低的经典方法)来训练基于下面的时间差异(TD)方程的容量感知值函数。

价值函数指导分配(VFGA)。我们现在可以利用上面的容量感知价值函数,从全局角度分配代理,以最大化总效用。Alg. 2给出了整个分配算法。首先,我们从上下文强盗Bb(参见第五节)中确定经纪人的个性化容量。在第4-14行中,我们对每批进行分配。具体来说,在第5行中,我们首先选择一组可用的代理B+,其工作负载wb低于其容量cb。然后我们更新每个候选匹配对的实用程序,如下所示。

VII. EXPERIMENTAL STUDY

图8的第一列显示了改变|B|的结果。对于总效用,我们的LACB和LACB- opt主导其他基线,包括Top-K, CTop- K, KM, RR和AN。我们还观察到TopK推荐的效用随着|B|的增加而降低,这表明由于超载现象,提供更多的经纪人并不能提高总效用。最后,LACB- opt获得了与LACB相同的效用,这与我们在推论1中的理论分析是一致的,即候选代理的选择不牺牲总效用。在运行时间方面,随着|B|的增加,KM、AN和LACB由于三次时间复杂度而变得低效,而Top-k、RR和CTop-k的运行时间仅略有增加。LABT-Opt的运行时间保持稳定,因为它的时间复杂度主要由请求数量决定,比其他基于KM的算法(KM, AN, LACB)更快。

经纪人深度分析。

为了理解我们的算法在基线上的增益,我们仔细研究了基线的效用和工作负载的分布。
如前所述,LACB- opt与LACB仅在效率上有所不同,因此在接下来的分析中不需要包括LACB- opt。当我们关注顶级代理的效用/工作量时,我们只显示具有更高效用或工作量的代理。
其他代理的效用/工作量表现出与图9和图10相似的长尾分布,此处省略。

效用分布。 图9给出了各算法的效用分布。以A市为例。对于大多数代理,基于容量的分配算法(CTop-K、AN和LACB)实现了比Top-K更高的效用,即避免过载现象在单个级别上也是有益的。其中,LACB组80.8%的经纪人效用较Top-K组有所提高。
RR为大多数代理提供了更紧密的实用程序,因为它随机地将请求分配给所有代理。然而,相对于Top-K, RR降低了25.7%经纪人的效用。在城市B和城市c中也发现了类似的观察结果。综上所述,LACB可以提高顶级经纪人和剩余经纪人的效用。

工作负载分布。 图10给出了各算法的工作负载分布。正如预期的那样,top - k导致顶级代理的最高工作量。RR随机分配请求,结果是顶级代理的最低工作负载。但它也阻止了顶级经纪人提供更多服务,即使他们有空闲的能力,从而限制了顶级经纪人的潜力。除RR外,LACB中顶级代理的工作量最小,说明LACB中顶级代理的过载风险较低。总而言之,LACB优于基线,这要归功于它适合顶级经纪人的工作负载容量。

图11展示了三个真实数据集上的结果。以A市为例,我们首先可以对总效用进行如下观察。正如预期的那样,Top-K在所有三个数据集上都表现不佳。Top-3的表现略优于Top-1,因为Top-1更容易使推荐的经纪人过载。与Top-K相比,CTop-K提高了总效用,表明了容量意识的必要性。由于上下文强盗,AN优于大多数基线,而我们的LACB和LACB- opt优于AN。运行时间随天数线性增加。与合成数据集上的结果相似,KM、AN和LACB由于其三次时间复杂度而最慢。LACB-Opt比Top-K和CTop-K慢1.7 ~ 24.2秒,比其他km算法快233.4× ~ 284.9×,在效率上具有竞争力。我们对这三个城市的数据有相似的观察。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值