AAAI'23 | 两篇大厂CTR预估最新工作

来自:圆圆的算法笔记

今天带大家读两篇AAAI 2023关于CTR预估的两篇工作。一篇是华为发表的Adaptive Low-Precision Training for Embeddings in Click-Through Rate Prediction,提出了一种CTR预估中embedding量化压缩的方法;另一篇是美团发表的Decision-Making Context Interaction Network for Click-Through Rate Prediction,通过在CTR预估模型中引入显示和隐式的上下文信息提升预估效果。

1

华为:Embedding量化

115d389cda5eee47deacde5db937e7cb.png

CTR预估中占用参数量最大的就是embedding table,尤其user、item等特征的embedding表,由于实体数量很大,导致这些特征的embedding表非常大,占用了非常巨大的存储开销。因此,对embedding table进行压缩是一个值得研究的领域。

目前业内关于embedding table的压缩主要有NAS-based embedding dimension search、Embedding pruning、Hashing三种方法。前两者都需要额外的存储和训练步骤来确定最优的embedding维度和剪枝方法,而hashing方法由于冲突问题会严重影响压缩后的模型效果。

针对前面方法的不足,华为提出了一种基于量化的端到端CTR模型训练方法。量化方法是将模型高精度float参数映射到离散化的值上,模型结构保持不变,极大节省了存储空间。之前的文章中介绍过量化相关的工作。

本文提出的量化基本的训练框架如下图中的b所示。以往的量化压缩方法为图a,需要保存全精度的参数,在前向传播过程中对全精度参数量化,基于量化后的参数计算梯度,再更新到全精度参数上,节省了计算资源。而本文提出的b方法,直接在量化后的参数上进行更新,而不用保存全精度的参数,适合本文提出的embedding存储压缩的场景。先把量化参数还原成全精度参数,再在全精度参数行梯度反传更新,最后将更新后的参数还原回量化参数,完成一轮训练。

123814861a98badca634b67708e4c8e1.png

量化中存在两个核心问题,一个是如何确定离散化两个值之间的step size,另一个是使用什么方法把float映射到离散化值。

针对第一个问题,文中提出了一种Adaptive low-precision training的方法,自动学习step size。具体的算法逻辑如下表,核心是在训练过程中有两阶段的优化,第一阶段更新模型的参数,第二阶段优化step size。

0341eaab9ca3c41d5e25e2e1c794f232.png

针对第二个问题,业内主要有DR和SR两种方式。DR直接根据四舍五入,确定性的将float离散化,而SR则是以一定概率随机的将float离散化到距离最近的两个整数之间。虽然之前的一些工作在实验角度验证了SR效果更好,但是没有给出具体的理论证明。本文作者填补了这部分的空白,从理论上证明了SR的离散化方法具有更快的收敛性和更好的准确率,因此本文采用了SR的离散化方法。

在实验阶段,文中对比了不同压缩方法的运行效率和效果,验证了本文提出的方法的优越性:

6cfc8d24c06563152fa6abf4a4a4ef9f.png

2

美团:上下文建模

21c17a6d5209d851ca0b91ae5540d39c.png

这篇文章提出在CTR中引入显示和隐式的上下文信息来提升CTR预估模型效果。

先说说显示上下文信息。以往的CTR预估模型重点在于用户历史行为序列建模,而忽略了用户历史行为中的上下文信息。比如下图左侧的例子,是某个用户某次历史搜索的行为,点击了蓝色框中的汉堡。以往的行为建模模型中,直接将这个汉堡加入到历史行为中,判断和当前商品的匹配情况。而上下文指的是用户历史搜索中,除了蓝色框以外红色框的部分。这部分信息引入的好处是,能够确定用户历史行为产生的原因。例如点击红色框的汉堡,是和蓝色框其他汉堡在价格、款式等维度上进行对比后,用户做出的决策。

再说隐式上下文信息,指的是上游的匹配、打分链路中,根据用户个性化信息建模流入下游的候选商品。如果流入下游的候选商品汉堡较多,那么表明用户可能更喜欢吃汉堡。将这部分信息引入进来,有利于提升用户喜好的建模。

3e4d01b41bb6cfd2894d7e1878cc1daf.png

基于以上出发点,本文提出了考虑用户显示隐式上下文信息的ctr预估模型。对于显示上下文,使用CIU模块进行编码,主要包括对上下文中不相关商品的过滤,以及利用上下文中相关商品信息增强用户的兴趣建模。对于隐式上下文信息,即前面模型送到ctr预估模型打分的候选item,也使用CIU模块进行有效信息的提取。最后,显示信息和隐式信息经过CIU的结果会经过一层AIAU进行融合,AIAU主要和MLP+self-attention的结构,用于融合经过显示、隐式增强后的用户兴趣信息。

2c470274ecb8a733cb3dac9811198f93.png

本文提出的模型上线后,经过A/B test实验,取得了CTR+2.9%/CPM+2.1%/GMV+1.5%的比较明显的效果收益。


最后给大家推荐一下最近小编从最新的斯坦福NLP的公开课都放到了bilibili上了,都已做了中英翻译,大部分已经更新完毕了,给需要的小伙伴~

是最新的呦~

目录

  • 词向量

  • 神经分类器

  • 反向传播和神经网络

  • 句法结构

  • RNN

  • LSTM

  • 机器翻译、Seq2Seq和注意力机制

  • 自注意力和Transformer

  • Transformers和预训练

  • 问答

  • 自然语言生成

  • 指代消解

  • T5和大型预训练模型

  • 待更...

10a6d9083aba41f7717849c2a1622bc9.png

点击阅读原文直达b站~


进NLP群—>加入NLP交流群

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值