WSDM 2022 | 点击率模型特征交叉方向的发展及CAN模型介绍

阿里妈妈技术

于 2022-03-02 19:00:00 发布

阅读量1.5k

点赞数 1

文章标签：大数据算法编程语言 python 计算机视觉

本文链接：https://blog.csdn.net/alimama_Tech/article/details/123244246

版权

丨目录：

· 摘要

· 背景

· 问题和方法

· Co-Action Network方案

· 方案扩展

· 总结

· References

· 关于我们

▐ 一、摘要

排序模块在广告、推荐和搜索等系统中扮演着非常重要的角色。排序结果会直接影响用户的体验。因此排序技术一直是工业界和学术界的研究热点，其中的点击率预估技术更是重中之重。而特征交叉则是点击率预估模型的重要技术方向，本文介绍了近年来特征交叉的热门技术方案及其挑战，并提出了一种新的特征协同交互模型Co-Action Network（CAN），通过提高非线性特征交互的隐式学习容量来探索特征协同交互的潜力。该模型相关工作论文已发表在WSDM 2022，欢迎阅读交流。

论文下载：https://arxiv.org/abs/2011.05625

▐ 二、背景

我们团队主要负责展示广告场景的排序预估，点击率预估模型的性能除了影响平台营收，也关系到用户体验和广告主的营销效率。在展示广告的业务场景下，点击率预估模型的目标是预估给定广告、场景、用户的情况下该用户会点击该广告的概率，即。近年来随着深度学习的发展，点击率预估模型也逐渐从传统的LR、FM、MLR等模型过渡到DNN模型，其整体的表达方式可以看做是一种Embedding&MLP的范式，基于这种范式逐渐涌现出了两类优秀的工作，一类是通用范式的特征交叉，例如：xDeepFM, ONN，FiBiNET等，这部分模型充分利用神经网络的学习能力挖掘特征信息的低阶、高阶融合从而提升点击率预估能力。另一类是基于物理意义先验的显式语义特征交互，例如DIN和PCF-GNN等，分别采用用户行为序列和图结构去捕捉用户和目标商品的相关性。在后者我们团队提出了兴趣建模这一技术方向，并持续耕耘产出了DIN/DIEN/MIMN/SIM等工作。因此我们也希望能在通用范式的特征交叉迭代中寻求技术增长，一开始我们的尝试是基于笛卡尔积的特征交叉，但远未达到预期的目标，随后我们打破以往的笛卡尔积组合惯性，尝试直接对序列特征和目标特征进行笛卡尔积组合，取得了不错的离线结果，不过在工业化上线的时候，这种方法在离线都遇到各种问题，且严重威胁到未来的技术迭代。因此我们转而尝试FM等参数化方案，这类方案性能可以，但效果远不如笛卡尔积。于是我们转而思考是否有更优雅的方式能够覆盖并超越笛卡尔积的效果，且不影响未来技术更迭。基于这样的思考路径，我们展开相关研究并最终设计出了Co-Action Network（CAN）。

▐ 三、问题和方法

通用范式的特征交叉指的是通过组合两个（或多个）特征来学习特征间非线性的组合高阶表达，其收益则是来自通过挖掘特征之间的共现组合，拓展了特征输入的表达，从而使得模型能更容易的学习到共现组合提供的信息。例如在真实的业务场景下，我们可以挖掘海量数据中用户特征和商品特征间的共现信息，如下图所示：

上述特征交叉的工业实现方案可以主要分为非参数化方案和参数化方案。

非参数化方案：显式的表达特征交叉ID，例如特征求交，笛卡尔积特征等。

参数化方案：主要通过模型参数隐式拟合的形式去捕捉特征的非线性组合能力，而参数化方案在DNN基础上的创新迭代又主要分为以下两类范式：

范式一：通过模型参数拟合的过程中能够明确特征的交互关系，例如DeepFM，IPNN，ONN，以及本文的CAN。
范式二：无法明确特征具体交互关系，通过设计更复杂的后端网络追求特征的implict组合和高阶融合，例如DCN，xDeepFM，FIBNET。

需要注意的是，两种范式并不冲突，如果我们将范式一定义丰富输入X，则范式二则是在复杂化F表达式，那么两者结合的F(X)可能会带来进一步收益，本文会在最后介绍CAN和范式二的结合升级。下面依次介绍一下各方法的实现和认识：笛卡尔积，IPNN，ONN，xDeepFM，FiBiNET，这些方法主要选取华为CTR Survey工作《Open Benchmarking for Click-Through Rate》里效果显著的模型。

1. 笛卡尔积

传统的笛卡尔积一般是将样本输入的任意两个特征进行组合拼成一个新的特征作为输入，我们在多种组合尝试后将其扩展到序列特征的组合中，具体操作是将待预估的商品信息（如item id）和用户行为序列信息（如item id sequence）做笛卡尔积，形成一个新的id sequence，对其直接做embedding后pooling，将该信息输入到后续DNN网络，在我们现有的主模型SIM上有比较明显的提升。但这种序列笛卡尔积在训练端和在线服务端成本很大，训练需要采用各种优化手段防止模型无限膨胀，且大小骤增的模型严重影响OL更新。在线服务因为每一次预估需要生成的ID（特征量级扩展参竞规模倍），和查询embedding的ID会急剧膨胀，RT和QPS都明显遭遇性能瓶颈，一言以蔽之则是给在离线都带来巨大挑战。

2. IPNN

最低0.47元/天解锁文章

阿里妈妈技术

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
WSDM 2022 | 点击率模型特征交叉方向的发展及CAN模型介绍

丨目录：· 摘要· 背景· 问题和方法·Co-Action Network方案· 方案扩展· 总结·References· 关于我们▐一、摘要排序模块在广告、推荐和搜索等系统中扮演...
复制链接

扫一扫