干货 | 强化学习在携程酒店推荐排序中的应用探索

最新推荐文章于 2024-08-01 07:30:00 发布

携程技术

最新推荐文章于 2024-08-01 07:30:00 发布

阅读量625

点赞数

本文链接：https://blog.csdn.net/ctrip_tech/article/details/96924029

版权

本文探讨了携程酒店排序中面临的挑战，如历史数据不一致性和预测新情况的问题。通过引入强化学习（RL），在城市欢迎度排序场景中进行实验，发现RL有助于提高排序质量。文章详细介绍了RL的背景、解决的问题，以及在业务中应用RL的思考过程，包括逐步实施方案A、B和C。初步实践显示RL在提高转化率方面有一定的效果，但仍需进一步优化数据处理架构和算法，以实现更优的排序结果，提升用户体验。

摘要由CSDN通过智能技术生成

作者简介

宣云儿，携程酒店排序算法工程师，主要负责酒店排序相关的算法逻辑方案设计实施。目前主要的兴趣在于排序学习、强化学习等领域的理论与应用。

前言

目前携程酒店绝大部分排序业务中所涉及的问题，基本可以通过应用排序学习完成。而其中模型训练步骤中所需的训练数据集，一般是通过线下收集数据来完成的。

然而在实际当中，往往存在业务新增或者业务变更，这就使得使用历史数据训练的模型，并不能很好地用于变更后的应用场景。形成该问题的主要原因，是过去所收集的数据与实际排序场景并不一致。

为了应对类似问题，我们尝试在城市欢迎度排序场景中引入了强化学习。通过实验发现，增加强化学习后，能够在一定程度上提高排序的质量。

一、实际面临的问题

在目前大部分的实践中，我们解决排序问题所诉诸的办法，基本都可以归为传统意义上的“排序学习”（learning to rank， L2R）。排序学习基本的建模过程，是通过收集数据，构建特征，选择模型，训练模型等步骤实现。

其中第一步收集数据，往往是以离线的方式完成。常见方法是通过埋点服务器收集用户行为数据，再进行模型训练数据的构建。

在收集数据的时候，一般存在一个假设要求：即我们所收集到的数据是和总体数据分布保持一致的，模型只要在这个基础上进行训练，所得到的结果在实际线上业务使用时是可靠的。我们暂且称其为“分布一致假设”。

当业务体量足够大、收集数据足够多时，一般会认为这一假设是成立的。然而在实际当中，要满足分布一致假设会面临一系列的挑战。这其中包含且不限于各种埋点服务准确性难以保证，数据处理中无法完全避免的数据损失，以及收集数据时间空间上的限制等问题。

此外，当排序应用的目标是预测现有数据集中不存在的情况时，传统的排序学习将变得无能为力。举一个商品排序的例子。在排序list结果展现中，我们设置业务限制：top10的item只能是1000元以上的商品。假设现在的排序目标为点击率（CTR），从现有数据进行模型训练后，模型很难准确地告诉我们一件10元商品出现在top10时它的CTR是多少，因为它根本没有在这个位置出现过。

这种“预测不曾在历史中出现的事件”的需求在实际当中并不少见：在多指标融合的排序指标中（例如排序指标是要在CTR和转化率CVR之间做加权），如何设置不同子指标之间的权重就是一例。

由于新的权重下得到的数据分布是不存在现有的数据集当中的，因此无法充分知晓用户在新的排序结果下的行为结果，在新权重的条件下训练一个模型满足业务目标也就无从谈起了。

更重要的是，实际上我们很难充分收集数据：试想，对于同一个用户，难道我们要将100种不同的权重参数所得到的排序结果，都一一展现给同一个用户，然后收集其给出的行为结果么？答案当然是否定的。

携程酒店排序业务中，同样也存在这样的问题。具体来说有两点最为明显：

1）对于内外网比价结果为优势或者劣势的酒店，我们是否应该调整该酒店的排序位置、以及应该如何调整。这个问题的答案并不是直观的，因为对不同用户来说，可能会存在不同的偏好，以及对于不同酒店来说，这一个问题的结果也可能是不同的。

2）对于历史上由于业务设置的原因排名靠后的酒店，在个性化排序或者广告业务中若将其位置提前，如何准确预测用户对这些酒店的行为。

这两个业务需求，都可以归结为前面提到的无法预先收集同分布数据集的问题，传统的L2R并不能很好地进行支持解决。

二、可能的解决方案

我们再仔细考虑下“将100个不同排序结果丢给同一个用户”这种做法的弊端。毫无疑问，这种暴力的做法虽然似乎能够充分收集数据，但事实上是有着极高的成本：极为伤害用户体验。