Deep Interest Network for Click-Through Rate Prediction

ABSTRACT

现有CTR常用的DNN架构中将用户特征表示为一个固定长度的embedding向量。固定长度会导致网络很难从用户的历史行为中学习到用户的多种兴趣。文中提出了DIN网络来解决这个问题,该网络设计了一个局部激活单元来自适应地从和某个广告相关的历史行为中学习用户兴趣。这个表示向量会因广告而异,极大地提高了模型的表达能力。此外,作者开发了两种技术:mini-batch aware regularization and data adaptive activation function ,帮助训练工业级的网络。

INTRODUCTION

作者介绍了常用的DNN模型使用固定长度向量表示用户的局限性。以电商网站广告为例,用户兴趣具有多样性。但是如果增加维度来表示用户,那么参数量增大,过拟合风险增加,同时增加计算和存储成本。
另一方面,也没有必要在预测一个广告时将用户所有兴趣都压缩到一个向量中,因为可能只有部分兴趣和该广告有关。据此,作者提出DIN:**Deep Interest Network (DIN), which adaptively calculates the representation vec- tor of user interests by taking into consideration the relevance of historical behaviors given a candidate ad. **
DIN 通过局部激活单元,只关注部分相关兴趣,通过带权sum pooling 来得到用户和该广告相关的兴趣表示。和这个广告相关的历史行为权重高一些,在兴趣表示中作用更大。为了帮助训练,昨天提出的mini-batch aware regularization,只有非零的出现在batch中的参数参与到L2 正则计算。另外,开发了一种自适应数据的激活函数,该函数改进PReLU, 通过根据输入数据的分布自适应地调整纠正点,实验证明对训练带有稀疏特征的DNN模型有帮助。

2 RELATEDWORK

Deep Crossing ,Wide& Deep 模型,youtube 推荐模型。PNN模型在embedding上引入一层product 层,DeepFM模型使用FM作为Wide&deep模型的wide部分。这些方法的共同点是使用embedding层学习稀疏特征的稠密表示,使用DNN学习特征的交叉。

注意力机制在机器翻译中提出,DeepIntent应用到搜索广告领域。该模型使用RNN建模文本,学习到一个隐层向量,可以对query中的不同单词给予不同的注意力。

DEEP INTEREST NETWORK

Feature Representation

CTR预估的数据通常是多组类别形式,比如[weekday=Friday, gender=Female,
visited_cate_ids={Bag,Book}, ad_cate_id=Book]。

形式化地来说,假设有M组特征,那么一个样本可以表示成
x = [ t 1 T , t 2 T , . . . t M T ] T x = [t_1^T , t_2^T , ...t_M^T ]^T x=[t1T,t2T,...tMT]T
t i ∈ R K i t_i \in R^{K_i} tiRKi , K i K_i Ki是第i个特征组的维度大小,表示包含 K i K_i Ki个不同的取值。
t i t_i ti中的元素取值为0或1, ∑ j = 1 K i t i [ j ] = k \sum_{j=1}^{K_i} t_i[j] =k j=1K

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值