#Paper Reading# Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling

论文题目: Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling
论文地址: https://dl.acm.org/doi/abs/10.1145/3326937.3341252
论文发表于: KDD 2019(CCF A类会议)
论文所属单位: Alibaba

论文大体内容:
本文主要提出了Res-embedding的方法,用于优化深度学习模型泛化能力不够强的问题;

Motivation:
常见的embedding方法会导致模型泛化性比较差:
①feature过多,参数过多,导致记忆能力提升但泛化能力下降;
②只以点击label来进行监督学习,会导致比较难学习出更好的泛化能力;

Contribution:
①理论证明增加embedding vector的聚合程度可以降低泛化误差,从而提升模型泛化能力;
②根据理论提出res-embedding的结构;
③实验证明res-embedding有效;


1. 本文假定:
①在同一个兴趣领域下的item共享central embedding;
②item独自拥有一个微小的残余embedding;
所以最终的embedding为: E = PC + R;
其中:
P是one-hot,∈R^(item数*兴趣领域数量),代表item属于哪个兴趣领域;
C是central embedding,∈R^(兴趣领域数量*dim),代表每个兴趣领域的向量;
R是每个item的残余embedding,∈R^(item数*dim)

2. 为了构建C,这里使用共现的频率去构建兴趣领域(所以模型不是 end2end 的);

3. 最终的embedding公式为:
E = g(Z) * C_b + R
作者在g(Z)上尝试了三种不同的方法,包括avg、gcn、attention;

4. 最终的Loss function如下,在常见的Loss function上增加了R的L2正则约束,因为要限制R的scale越小越好;


实验
6. Dataset
①Amazon-Electronics
②Amazon-Books
③MovieLens

7. Baseline
①MLP;
②PNN;
③DIN;

8. Metric
①AUC;

9. 实验结果
overfitting的情况;


仅用20%+的数据去训练就能得到与全量数据训练基本一样的结果,说明res-embedding模型泛化能力不错;


res-embedding的方法得到的embedding,更locally聚合;


AUC效果对比;

10. 思考
本文主要将embedding拆分为泛化性强的central embedding和记忆性强的残余embedding,可以应用到transfer learning中使用,大任务学习central embedding,小任务学习残余embedding;


参考资料: 
[1] https://blog.csdn.net/Super_Json/article/details/105880918


以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值