AAAI'23 | 两篇大厂CTR预估最新工作-CSDN博客

华为提出AdaptiveLow-PrecisionTraining方法，解决embedding表的存储开销问题，通过自动学习步长和随机量化策略提高模型效果。美团则引入显示和隐式上下文信息，利用CIU和AIAU模块提升CTR预估模型的准确性，实现出色的业务收益。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来自：圆圆的算法笔记

今天带大家读两篇AAAI 2023关于CTR预估的两篇工作。一篇是华为发表的Adaptive Low-Precision Training for Embeddings in Click-Through Rate Prediction，提出了一种CTR预估中embedding量化压缩的方法；另一篇是美团发表的Decision-Making Context Interaction Network for Click-Through Rate Prediction，通过在CTR预估模型中引入显示和隐式的上下文信息提升预估效果。

华为：Embedding量化

CTR预估中占用参数量最大的就是embedding table，尤其user、item等特征的embedding表，由于实体数量很大，导致这些特征的embedding表非常大，占用了非常巨大的存储开销。因此，对embedding table进行压缩是一个值得研究的领域。

目前业内关于embedding table的压缩主要有NAS-based embedding dimension search、Embedding pruning、Hashing三种方法。前两者都需要额外的存储和训练步骤来确定最优的embedding维度和剪枝方法，而hashing方法由于冲突问题会严重影响压缩后的模型效果。

针对前面方法的不足，华为提出了一种基于量化的端到端CTR模型训练方法。量化方法是将模型高精度float参数映射到离散化的值上，模型结构保持不变，极大节省了存储空间。之前的文章中介绍过量化相关的工作。

本文提出的量化基本的训练框架如下图中的b所示。以往的量化压缩方法为图a，需要保存全精度的参数，在前向传播过程中对全精度参数量化，基于量化后的参数计算梯度，再更新到全精度参数上，节省了计算资源。而本文提出的b方法，直接在量化后的参数上进行更新，而不用保存全精度的参数，适合本文提出的embedding存储压缩的场景。先把量化参数还原成全精度参数，再在全精度参数行梯度反传更新，最后将更新后的参数还原回量化参数，完成一轮训练。

量化中存在两个核心问题，一个是如何确定离散化两个值之间的step size，另一个是使用什么方法把float映射到离散化值。

针对第一个问题，文中提出了一种Adaptive low-precision training的方法，自动学习step size。具体的算法逻辑如下表，核心是在训练过程中有两阶段的优化，第一阶段更新模型的参数，第二阶段优化step size。

针对第二个问题，业内主要有DR和SR两种方式。DR直接根据四舍五入，确定性的将float离散化，而SR则是以一定概率随机的将float离散化到距离最近的两个整数之间。虽然之前的一些工作在实验角度验证了SR效果更好，但是没有给出具体的理论证明。本文作者填补了这部分的空白，从理论上证明了SR的离散化方法具有更快的收敛性和更好的准确率，因此本文采用了SR的离散化方法。

在实验阶段，文中对比了不同压缩方法的运行效率和效果，验证了本文提出的方法的优越性：

美团：上下文建模

这篇文章提出在CTR中引入显示和隐式的上下文信息来提升CTR预估模型效果。

先说说显示上下文信息。以往的CTR预估模型重点在于用户历史行为序列建模，而忽略了用户历史行为中的上下文信息。比如下图左侧的例子，是某个用户某次历史搜索的行为，点击了蓝色框中的汉堡。以往的行为建模模型中，直接将这个汉堡加入到历史行为中，判断和当前商品的匹配情况。而上下文指的是用户历史搜索中，除了蓝色框以外红色框的部分。这部分信息引入的好处是，能够确定用户历史行为产生的原因。例如点击红色框的汉堡，是和蓝色框其他汉堡在价格、款式等维度上进行对比后，用户做出的决策。

再说隐式上下文信息，指的是上游的匹配、打分链路中，根据用户个性化信息建模流入下游的候选商品。如果流入下游的候选商品汉堡较多，那么表明用户可能更喜欢吃汉堡。将这部分信息引入进来，有利于提升用户喜好的建模。

基于以上出发点，本文提出了考虑用户显示隐式上下文信息的ctr预估模型。对于显示上下文，使用CIU模块进行编码，主要包括对上下文中不相关商品的过滤，以及利用上下文中相关商品信息增强用户的兴趣建模。对于隐式上下文信息，即前面模型送到ctr预估模型打分的候选item，也使用CIU模块进行有效信息的提取。最后，显示信息和隐式信息经过CIU的结果会经过一层AIAU进行融合，AIAU主要和MLP+self-attention的结构，用于融合经过显示、隐式增强后的用户兴趣信息。