#Paper Reading# Warm Up Cold-start Advertisements: Improving CTR Predictions via L2L ID Embeddings

最新推荐文章于 2023-02-21 14:21:34 发布

John159151

最新推荐文章于 2023-02-21 14:21:34 发布

阅读量402

点赞数

分类专栏： paper reading

本文链接：https://blog.csdn.net/John159151/article/details/119333779

版权

paper reading 专栏收录该内容

99 篇文章 4 订阅

订阅专栏

论文题目: Warm Up Cold-start Advertisements: Improving CTR Predictions via Learning to Learn ID Embeddings
论文地址: https://dl.acm.org/doi/abs/10.1145/3331184.3331268
论文发表于: SIGIR 2019（CCF A类会议）
论文所属单位: 中科院计算所

论文大体内容：
本文主要提出了Meta-embedding的方法，用于给新的item生成更好的初始化embedding，而更好的生成初始化embedding，也能使得模型更快收敛；

Motivation：
常见的依赖id embedding的NN方法都会遇到item冷启动的问题，如何更好的解决该问题是本文的出发点；

Contribution：
①提出Meta-Embedding方法，提升新item的ctr预测；
②提出简单但有效的Meta-Embedding生成器；
③方法容易应用到线上item冷启动；
④离线实验在3个数据集上均取得显著的效果；

1. 广告系统中冷启item具有长尾的属性，80%的样本来自于5%的item id，这也导致大量的item属于冷启阶段，缺乏行为信息（监督信息）让模型对它学的很好。

2. 本文主要focus在优化新item的embedding初始化，这有2方面好处：
①新item的预测更准；
②加速模型收敛；

3. 该模型也容易部署，在部署上相比原有方案，仅多出了Meta-Embedding Generator；

4. Embedding生成器训练的整体过程如下：

5. Embedding生成器通过在最后一层使用三个技巧来获得数值稳定的输出：
①使用tanh激活函数；
②不添加偏置项；
③使用L2正则化来惩罚权重；
使用的模型结构如下：

实验
6. Dataset
①MovieLens-1M
②Tencent CVR prediction dataset for App recommendation
③KDD Cup 2012 CTR prediction dataset for search ads

7. Baseline
①FM；
②W&D;
③PNNs；
④DeepFM；

8. Metric
①AUC；
②LogLoss；

9. 训练过程[1]
①使用老id的数据训练整个模型；
②用整个训练数据训练Embedding生成器；
③新id随机初始化embedding；
④在testset计算效果；
⑤模拟warmup过程：使用batch-a训练并更新新id的embedding；
⑥在testset计算效果；
⑦模拟warmup过程：使用batch-b训练并更新新id的embedding；
⑧在testset计算效果；
⑨模拟warmup过程：使用batch-c训练并更新新id的embedding；
⑩在testset计算效果；

10. 实验结果