阿里经典推荐论文《Deep Interest Network for Click-Through Rate Prediction》理解

Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018: 1059-1068.

这是一篇阿里发表在2018年KDD上关于点击率预测的论文。论文里的A/B测试是在2017年5月到6月之间完成的,因此推断出这篇论文的实验时间应该是在2017年初左右。另外,从本文所使用的方法来看,这也不是一篇使用最新深度学习方法的论文。本文最主要的创新点有三:

  1. 基于传统模型提出深度兴趣网络(deep interest network)。
  2. 提出两个针对大数据的工业深度学习方法:基于mini-batch的正则化和数据自适应的激活函数。
  3. 在公开数据集和阿里数据集上的大量实验。

1. 深度兴趣网络

本文的模型架构图如下所示:

在这里插入图片描述
从上图,我们可以看出,本文的模型深度兴趣网络是在传统CTR模型的基础上实现的。与传统模型的唯一区别是,引入Activation Unit计算商品特征(Goods)和广告特征(Ad)之间的相关性(即注意力)。这样做的好处有两点:一是解决了传统模型的商品特征是固定大小的向量而无法充分表示的不足;二是考虑了商品特征和广告特征的相关性,如一个用户在一定时间游览过多个不同商品,每个商品对广告推荐的影响是不同的。

2. 基于mini-batch的正则化

传统的正则化方法在该论文所使用的海量数据集上是行不通的。以阿里数据集为例,商品特征的维度是6亿左右,即使只对非零的特征做正则化处理,那么需要处理的维度也在1亿左右,这是难以训练的。因此本文提出改进方法,基于mini-batch的正则化,即从batch的角度做正则化,那么每次batch所需处理的维度会大幅度下降。具体的模型推导过程在原文中有介绍。

3. 数据自适应的激活函数

本文从考虑数据分布的角度出发,引入全新的激活函数DICE:
f ( s ) = p ( s ) ⋅ s + ( 1 − p ( s ) ) ⋅ a s , p ( s ) = 1 1 + e − s − E [ s ] V a r [ s ] + ϵ . f(s) = p(s)\cdot s + (1-p(s))\cdot as, p(s) = \frac{1}{1+e^{-\frac{s-E[s]}{\sqrt{Var[s]+\epsilon}}}}. f(s)=p(s)⋅</

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值