论文题目: Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling
论文地址: https://dl.acm.org/doi/abs/10.1145/3326937.3341252
论文发表于: KDD 2019(CCF A类会议)
论文所属单位: Alibaba
论文大体内容:
本文主要提出了Res-embedding的方法,用于优化深度学习模型泛化能力不够强的问题;
Motivation:
常见的embedding方法会导致模型泛化性比较差:
①feature过多,参数过多,导致记忆能力提升但泛化能力下降;
②只以点击label来进行监督学习,会导致比较难学习出更好的泛化能力;
Contribution:
①理论证明增加embedding vector的聚合程度可以降低泛化误差,从而提升模型泛化能力;
②根据理论提出res-embedding的结构;
③实验证明res-embedding有效;
1. 本文假定:
①在同一个兴趣领域下的item共享central embedding;
②item独自拥有一个微小的残余embedding;
所以最终的embedding为: E = PC + R;
其中:
P是one-hot,∈R^(item数*兴趣领域数量),代表item属于哪个兴趣领域;
C是central embedding,∈R^(兴趣领域数量*dim),代表每个兴趣领域的向量;
R是每个item的残余embedding,∈R^(item数*dim)
2. 为了构建C,这里使用共现的频率去构建兴趣领域(所以模型不是 end2end 的);
3. 最终的embedding公式为:
E = g(Z) * C_b + R
作者在g(Z)上尝试了三种不同的方法,包括avg、gcn、attention;
4. 最终的Loss function如下,在常见的Loss function上增加了R的L2正则约束,因为要限制R的scale越小越好;
实验
6. Dataset
①Amazon-Electronics
②Amazon-Books
③MovieLens
7. Baseline
①MLP;
②PNN;
③DIN;
8. Metric
①AUC;
9. 实验结果
overfitting的情况;
仅用20%+的数据去训练就能得到与全量数据训练基本一样的结果,说明res-embedding模型泛化能力不错;
res-embedding的方法得到的embedding,更locally聚合;
AUC效果对比;
10. 思考
本文主要将embedding拆分为泛化性强的central embedding和记忆性强的残余embedding,可以应用到transfer learning中使用,大任务学习central embedding,小任务学习残余embedding;
参考资料:
[1] https://blog.csdn.net/Super_Json/article/details/105880918
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!