一文总结特征增强&个性化在CTR预估中的经典方法和效果对比

1365003539d43eff0a877bd41cbcde2f.png

本文约1600字,建议阅读5分钟
本文给大家介绍一下几种特征增强模块的实现方法,以及本文进行的相关对比实验。

在CTR预估中,主流都采用特征embedding+MLP的方式,其中特征非常关键。然而对于相同的特征,在不同的样本中,表征是相同的,这种方式输入到下游模型,会限制模型的表达能力。

为了解决这个问题,CTR预估领域提出了一系列相关工作,被称为特征增强模块。特征增强模块根据不同的样本,对embedding层的输出结果进行一次矫正,以适应不同样本的特征表示,提升模型的表达能力。

最近,复旦大学和微软亚研院联合发布了一篇特征增强工作的总结,对比了不同特征增强模块实现方法的效果。下面给大家介绍一下几种特征增强模块的实现方法,以及本文进行的相关对比实验。

257cba9882c4bb3dbfb3e18ff7c2cbaa.png

论文标题:

A Comprehensive Summarization and Evaluation of Feature Refinement Modules for CTR Prediction

下载地址:

https://arxiv.org/pdf/2311.04625v1.pdf

1 特征增强建模思路

特征增强模块,旨在提升CTR预估模型中Embedding层的表达能力,实现相同特征在不同样本下的表征差异化。特征增强模块可以用下面这个统一公式表达,输入原始的Embedding,经过一个函数后,生成这个样本个性化的Embedding。

0cd19c768c7c90e3669611433347aa2f.png

这类方法的大致思路为,在得到初始的每个特征的embedding后,使用样本本身的表征,对特征embedding做一个变换,得到当前样本的个性化embedding。下面给大家介绍一些经典的特征增强模块建模方法。

2 特征增强经典方法

An Input-aware Factorization Machine for Sparse Prediction(IJCAI 2019)这篇文章在embedding层之后增加了一个reweight层,将样本初始embedding输入到一个MLP中得到一个表征样本的向量,使用softmax进行归一化。Softmax后的每个元素对应一个特征,代表这个特征的重要程度,使用这个softmax结果和每个对应特征的初始embedding相乘,实现样本粒度的特征embedding加权。

3fe2ed27aad7ba018c080272ab323836.png

FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction(RecSys 2019)也是类似的思路,为每个样本学习一个特征的个性化权重。整个过程分为squeeze、extraction、reweight三个步骤。在squeeze中,将每个特征embedding通过pooling得到一个其对应的统计标量。在extraction中,将这些标量输入到MLP中,得到每个特征的权重。最后,使用这个权重和每个特征embedding向量相乘,得到加权后的embedding结果,相当于在样本粒度做一个特征重要性筛选。

929cbba582125763d3196cb2536b6d63.png

A Dual Input-aware Factorization Machine for CTR Prediction(IJCAI 2020)和上一篇文章类似,也是利用self-attention对特征进行一层增强。整体分为vector-wise和bit-wise两个模块。Vector-wise将每个特征的embedding当成序列中的一个元素,输入到Transformer中得到融合后的特征表示;bit-wise部分使用多层MLP对原始特征进行映射。两部分的输入结果相加后,得到每个特征元素的权重,乘到对应的原始特征的每一位上,得到增强后的特征。

d73a0dbe021c7bda90533584c4eeafd2.png

GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction(2020)利用每个特征的初始embedding过一个MLP和sigmoid函数生成其独立的特征权重分,同时也使用MLP对所有特征进行映射生成bit-wise的权重分,两者融合对输入特征进行加权。除了特征层外,在MLP的隐层,也利用类似的方法,对每个隐层的输入进行加权。

453c532f3910bfeeac77be5a4a1966bf.png

Interpretable Click-Through Rate Prediction through Hierarchical Attention(WSDM 2020)也是利用self-attention实现特征的转换,但是增加了高阶特征的生成。这里面使用层次self-attention,每一层的self-attention以上一层sefl-attention的输出作为输入,每一层增加了一阶高阶特征组合,实现层次多阶特征提取。具体来说,每一层进行self-attention后,将生成的新特征矩阵经过softmax得到每个特征的权重,根据权重对原始特征加权新的特征,再和原始特征进行一次点积,实现增加一阶的特征交叉。

727cb4035e297ef0c5214682b7311d46.png

ContextNet: A Click-Through Rate Prediction Framework Using Contextual information to Refine Feature Embedding(2021)也是类似的做法,使用一个MLP将所有特征映射成一个每个特征embedding尺寸的维度,对原始特征做一个缩放,文中针对每个特征使用了个性化的MLP参数。通过这种方式,利用样本中的其他特征作为上下位增强每个特征。

e4939cf5fa186fc188200a3ef26f995d.png

Enhancing CTR Prediction with Context-Aware Feature Representation Learning(SIGIR 2022)采用了self-attention进行特征增强,对于一组输入特征,每个特征对于其他特征的影响程度是不同的,通过self-attention,对每个特征的embedding进行一次self-attention,实现样本内特征间的信息交互。除了特征间的交互,文中也利用MLP进行bit级别的信息交互。上述生成的新embedding,会通过一个gate网络,和原始的embedding进行融合,得到最终refine后的特征表示。

efaa787e92b3eea71bd4f69ea8d3ce9a.png

3 实验效果

文中进行了各类特征增强方法的效果对比,整体结论为,在众多特征增强模块中,GFRL、FRNet-V、FRNetB 表现的最好,并且效果要优于其他的特征增强方法。

8bad40e60c832c32de609fa890aa731c.png

编辑:王菁‍‍‍


‍‍‍‍‍‍

bcbe3b938a4271a0789f058d9a87ba75.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值