QCon直击｜闲鱼推荐大规模应用背后的工程实践

闲鱼技术

于 2022-12-21 12:12:31 发布

阅读量888

点赞数 3

本文链接：https://blog.csdn.net/weixin_38912070/article/details/128397326

版权

讲师介绍

闲鱼技术部 | 吴白

万小勇（吴白），闲鱼服务端专家。毕业于南京大学计算机系，目前负责闲鱼技术推荐架构。

算法离线面临的挑战

闲鱼有非常多的场景需要消费实时数据，比如在生态治理方面，闲鱼上很多优质供给在很短时间被黄牛扫光，但是从平台角度看肯定更希望这些优质供给能被更多的用户消费；

因为这个原因，闲鱼长久以来有3个团队在做数据相关的建设：算法面向模型，需要非常实时的数据，所以会做很多定制化的链路；BI面向数据分析；工程面向应用。随着不断的演进叠加，其问题也逐渐暴露出来：

所以BI，工程，算法一起打造闲鱼的公共实时数仓，作为下游众多应用的数据来源。

在闲鱼，特征不仅应用广泛，而且影响非常大。无论是从沉淀服务更多场景还是成本的角度看，都需要统一管控起来。

我们期望通过特征中心的建设，实现以下几个目的

1. 特征能以资产的形式沉淀下来。所以我们构建了特征写入和存储模块，结合特征管理模型，实现特征的低成本快读接入。
2. 特征能够高效的对外输出。一方面性能足够好，另一方面能以不同的形式服务众多下游。
3. 特征生命周期管控。在这以前，闲鱼的特征是不可迭代的。因为只上不下，线上哪些特征在用，这些特征的价值如何，没有人能回答。因此我们构建了特征质量模块，通过对特征重要性分析，对特征进行统一管控。
4. 基于特征的样本构建足够高效。通过特征全埋点来自动构建在离线一致的实时样本流。

一般来说，离线训练得到的模型并不能直接部署线上。这里有多方面的原因

1. 模型网络结构的差异。典型的模型离线训练流程为：输入，预测，优化。在线预测阶段则只需要输入，预测两个环节。
2. 输入的差异。一方面数据结构的差异，模型离线训练阶段需要输入特征和label 共同组成样本。在线则只需要输入特征即可。另一方面数据源也存在着差异。训练阶段的数据大多来自于存储在某个地方的数据集，在线服务的输入则来自于请求入参和在线服务。
3. 计算架构的差异。离线训练阶段由于对性能要求不高，模型可能运行在CPU之上。但在线阶段由于对性能要求较高，则有可能运行在更为复杂的如cpu+gpu环境之上。

在模型Offline2Online过程中，我们首先需要对模型做一轮自动裁剪。

压缩过程中主要有几个策略

除此之外，在GPU上也做了大量的优化工作，这些优化工作总结起来遵循两个原则

最后做一个总结，闲鱼推荐系统的离线架构如上所示，主要解决

1. 数据研发效率。如何快速拿到需要的数据。这里面会涉及到数据时效性如何，数据准确度是否满足要求，数据是否散落在各地等一系列问题。
2. 特征迭代效率。这里会面临的问题包括：特征在离线一致性；样本高效回刷；特征一致性解析(训练阶段和在线服务阶段，特征来源不一样)。
3. 样本生产效率。每次模型迭代机会都会涉及到样本的更改。一个比较典型问题如行存样本导致的重复计算和重复存储的问题。
4. 模型开发效率。可复用能力：有效的模型网络是否沉淀，以便新模型快速冷启；一些和模型无关的细节能否底层做掉，对算法屏蔽掉细节，比如滑动auc窗口时auc自动清零等；常用的脚手架代码能否通过框架完成等。

闲鱼为什么需要单独的策略层？这和闲鱼自身的定位和特性强相关。

比如闲鱼面临着以下命题，因此在服务之上，架了一层策略层，来实现流量分发的全局最优。

我们把闲鱼面临的一些问题从调控对象和范围两个维度划分来六个象限

基于这六个象限，设计了一套流量调控系统

到现在，闲鱼推荐的分层架构基本就已经很清晰了，如下所示

这里面每一层都会进行独立的实验迭代，也就意味着每一层都可能对大盘产生影响，无论是正向的还是负向的。因此在闲鱼经常会面临着一些下面的灵魂拷问

为了回答这些灵魂拷问，我们对实验体系进行了重构，主要重构点包括

综上，未来仍有很多优化手段可以关注：指标自动归因，推荐链路白盒化；模型可解释；大规模负样本采样等。

关注