SIGIR 2021 | FSCD-PreRank:面向效率和效果更加均衡的交互式粗排模型

欢迎关注:阿里妈妈技术公众号
本文作者:炽兔 阿里妈妈技术团队​

论文传送门:Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking- A Learnable Feature Selection based Approach. SIGIR 2021

0 摘要

实际的搜索、推荐和广告系统中经常采用多阶段排序架构,包括召回、粗排、精排、重排等阶段。在粗排阶段,为了保证系统的效率,经常采用基于表征式(representation-focused, RF)结构的向量点积模型,这往往会对系统效果造成一定的损失。阿里搜索广告rank算法团队提出了一种新的粗排方法,可以支持复杂的交互式(interaction-focused, IF)结构,且采用提出的特征选择方法(FSCD)实现了效率和效果的更好均衡。在阿里巴巴搜索直通车的实际广告场景的实验显示,相比于传统方法,采用提出的粗排模型后系统在不增加额外在线计算资源的情况下获得了明显的效果提升。本工作已在阿里搜索广告全量上线,为阿里巴巴集团带来了显著的收益;同时工作撰写的论文也已经被SIGIR2021接收。

1 介绍

大规模的搜索引擎和推荐系统对人们日常生活中的信息搜索和推荐起到了十分重要的作用,这些系统从数以千万或亿计的大量候选中为用户挑选了合适的内容,从而满足了用户对信息的需求。在超低时延的约束下,系统不可能布设单一的复杂模型为每一个候选进行打分和排序,而通常采用多阶段的排序架构。以阿里搜索广告为例,多阶段架构通常包括召回、粗排、精排、重排等阶段(详见图1a)。在多阶段架构中,精排模型通常采用具有IF结构的大规模深度神经网络(DNN),而为了保证系统效率,粗排模型往往采用具有RF结构的简单模型。

然而,具有RF结构的简单粗排模型会存在表达能力受限的问题。目前工业界的粗排模型通常采用基于向量点积的双塔模型,它是一种典型的RF结构(详见图1b),优点是在线复杂度低,可以实现多个内容的打分,但缺点也很明显:缺少显式的内容侧交叉特征和隐式的交叉语义信息,而这些信息对效果的提升有很大的助力。具有RF结构的粗排模型过于关注效率的优化,与IF结构的模型效果差距非常大。在实际在线服务过程中,以阿里搜索广告为例,特征的生成和模型推断几乎各占用了一半的在线时延,因此同时考虑效率和效果来进行粗排模型的特征选择可以显著改善在线效率,从而为基于IF结构的粗排模型提供了可能。

我们提出了一种效率和效果均衡的粗排方案,在粗排模型效率微降的基础上大幅度增长模型效果,详见图1b。本工作的贡献主要有:1.通过继承精排模型结构,粗排阶段成功采用了IF结构的模型,解决了RF结构的效果不足的问题;2.提出了一种基于特征复杂度和variational dropout的可学习特征选择方法(FSCD),可以学到一组效率和效果都优越的特征集合提供给粗排模型进行训练;3.实验结果显示,采用提出的粗排模型后,整个系统在效率持平的情况下获得了显著的在线效果提升。本方法已经在阿里搜索广告业务中全量上线,并获得了稳定的在线收益。

图1: 阿里搜索广告中的多阶段排序架构。(a) 多阶段架构的各个阶段:召回、粗排、精排、重排,以及每个阶段的打分内容数量;(b) 粗排和精排模型效率和效果的直观示意图,在本工作提出的方法中,粗排模型通过精排模型衍生而来,且优化成一个IF结构。

2 提出的方法

我们提出的粗排模型是从精排模型中衍生而来的。两个模型都采用了IF结构,且共享了一组特征集合 S = { f 1 , f 2 , . . . , f M } S = \{f_1, f_2, ..., f_{M}\} S={ f1,f2,...,fM},其中 f j f_j fj S S S中的第 j j j个特征域, M M M是特征域的个数。在阿里搜索广告的系统中,精排模型采用了 S S S中的所有的特征域来保证线上效果的最优;粗排模型则采用 S S S的特征域子集来减少在线的计算复杂度以及对更多的广告进行打分。将IF结构引入粗排模型的最大障碍是模型效率。模型可学习的参数通常可以包括特征embedding v \pmb{v} vvv和网络权重 w \pmb{w} www,而粗排模型的复杂度主要受embedding v \pmb{v} vvv的影响,因此选取既有效果又有效率的特征是粗排模型能够应用IF结构的关键。

2.1 粗排模型的FSCD方法

图2: 提出的粗排模型的FSCD方法

受到传统的Dropout FR方法的启发,我们提出了特征选择的FSCD方法来同时考虑特征的效率和效果,具体流程可见图2。在提出的FSCD方法中,特征的效果通过损失函数的交叉熵来进行优化,同时特征的效率通过特征维度的正则化来进行保证。FSCD方法可以通过一次端到端的训练来提取既有效果又有效率的特征集合。因此,应用这个特征集合的粗排模型的表达能力相比于基线模型可以获得显著增强。具体的推导过程如下。

为了选择出既有效果又有效率的特征集合,我们希望给每一个特征域 f j f_j fj都设置一个可学习的抛弃(dropout)因子 z j ∈ { 0 , 1 } z_j \in \{0, 1\} zj{ 0,1},以此来表示特征被抛弃( z j = 0 z_j=0 zj=0)或者被保留( z j = 1 z_j=1 zj=1)。 f j f_j fj的embedding向量 v j v_j vj会乘以 z j z_j zj来组成新的embedding层。因子 z j z_j zj满足参数为 θ j \theta_j θj的伯努利分布,即
z j ∼ B e r n ( θ j ) , z_j \sim Bern(\theta_j), zjBern(θj),
其中超参 θ j \theta_j θj是特征域 f j f_j fj获得保留的先验概率,建模为特征复杂度 c j c_j cj的函数:
θ j = H ( c j ) = 1 − σ ( c j ) , c j = G ( o j , e j , n j ) \theta_j = \mathcal{H}(c_j) = 1 - \sigma (c_j), \\ c_j = \mathcal{G}(o_j, e_j, n_j) θj=H(cj)=1σ(cj),

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值