#Paper Reading# Warm Up Cold-start Advertisements: Improving CTR Predictions via L2L ID Embeddings

论文题目: Warm Up Cold-start Advertisements: Improving CTR Predictions via Learning to Learn ID Embeddings
论文地址: https://dl.acm.org/doi/abs/10.1145/3331184.3331268
论文发表于: SIGIR 2019(CCF A类会议)
论文所属单位: 中科院计算所

论文大体内容:
本文主要提出了Meta-embedding的方法,用于给新的item生成更好的初始化embedding,而更好的生成初始化embedding,也能使得模型更快收敛;

Motivation:
常见的依赖id embedding的NN方法都会遇到item冷启动的问题,如何更好的解决该问题是本文的出发点;

Contribution:
①提出Meta-Embedding方法,提升新item的ctr预测;
②提出简单但有效的Meta-Embedding生成器;
③方法容易应用到线上item冷启动;
④离线实验在3个数据集上均取得显著的效果;


1. 广告系统中冷启item具有长尾的属性,80%的样本来自于5%的item id,这也导致大量的item属于冷启阶段,缺乏行为信息(监督信息)让模型对它学的很好。 

2. 本文主要focus在优化新item的embedding初始化,这有2方面好处:
①新item的预测更准;
②加速模型收敛; 

3. 该模型也容易部署,在部署上相比原有方案,仅多出了Meta-Embedding Generator; 

4. Embedding生成器训练的整体过程如下: 

5. Embedding生成器通过在最后一层使用三个技巧来获得数值稳定的输出:
①使用tanh激活函数;
②不添加偏置项;
③使用L2正则化来惩罚权重;
使用的模型结构如下: 

 
实验
6. Dataset
①MovieLens-1M
②Tencent CVR prediction dataset for App recommendation
③KDD Cup 2012 CTR prediction dataset for search ads

7. Baseline
①FM;
②W&D;
③PNNs;
④DeepFM;

8. Metric
①AUC;
②LogLoss;

9. 训练过程[1]
①使用老id的数据训练整个模型;
②用整个训练数据训练Embedding生成器;
③新id随机初始化embedding;
④在testset计算效果;
⑤模拟warmup过程:使用batch-a训练并更新新id的embedding;
⑥在testset计算效果;
⑦模拟warmup过程:使用batch-b训练并更新新id的embedding;
⑧在testset计算效果;
⑨模拟warmup过程:使用batch-c训练并更新新id的embedding;
⑩在testset计算效果;

10. 实验结果 

参考资料: 
[1] https://github.com/Feiyang/MetaEmbedding/blob/master/code/example-MovieLens.ipynb


以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值