前言
今天分享一篇阿里2019发表在AAAI上的CTR预估的论文《Deep Interest Evolution Network for Click-Through Rate Prediction》。本文的亮点主要是作者提出了兴趣提取层和兴趣演化层两个网络层,以提高兴趣表示能力。
本文约5.2k字,预计阅读15分钟
背景
每点击付费(CPC) 是广告系统中最常见的计费形式之一,广告商对广告的每次点击进行收费。在CPC广告系统中,点击率(CTR)预测的效果不仅影响整个平台的最终收益,还会影响用户体验和满意度。
在大多数非搜索的电子商务场景中,用户不主动表达自己当前的意愿。因此设计能够捕捉用户动态兴趣的模型是提高CTR预测性能的关键。
研究现状【~2019】
1、由于深度学习在特征表示上的强学习能力,目前大部分CTR模型从传统的线性或非线性模型(例如FM)转换到深度模型。
2、大多数深度模型遵循Embedding+多层感知器(MLP)的结构,例如:
Wide&Deep[1]、DeepFM[2]:采用高阶和低阶特征的联合来提高模型的表达能力;
PNN[3]:在MLP之前引入一个乘积层(内积和外积),强调了特征Embedding向量之间的交叉方式,让模型更容易捕获特征的交叉信息;
缺陷: 但这些模型只关注从不同的领域捕获特征之间的交互,【没有考虑到用户兴趣的表示】。
3、DIN[4]引入了一个attention机制来激活具有意义的历史行为,从而获取目标物品的相关兴趣,以得到自适应的兴趣表示。但:
DIN将用户行为直接视作兴趣,然而潜在的兴趣很难通过显示的行为得到充分的体现。【这里作者表达的应该是DIN直接将用户行为的embedding+attention机制作为用户兴趣,但这样可能未能充分的体现】
此外,用户兴趣是不断发展的,捕捉兴趣的动态变化对于兴趣表示是很重要的,DIN在捕获序列行为之间的依赖有所欠缺【即使用序列模型更能捕获用户行为之间的关系】。
4、在许多应用领域中,用户物品交互可以随时间记录,此信息可用于建立更丰富的用户模型,例如TDSSM、DREAM、ATRank等。但这些传统的RNN模型存在一些问题:
问题4.1:【直接将整个序列结构看作潜在的兴趣】,而这些隐藏状态(如 )缺乏对兴趣表示的特殊监督。
问题4.2: 大多数基于RNN的模型都【连续且均等地处理相邻行为之间的所有依赖关系】。但并非所有用户的行为都严格取决于每个相邻的行为。每个用户都有不同的兴趣,并且每个兴趣都有其自己的发展轨迹,例如书籍和衣服的发展过程几乎是各自独立的。对于目标物品,这些模型只能获得一个固定的兴趣演化轨迹,可能会受到兴趣漂移的干扰。【简而言之,就是缺少Attention机制】
兴趣漂移:兴趣漂移对行为的影响是用户可能在一段时间内对各种书籍产生兴趣,在另一段时间内又需要衣服。
启发
1、为了使序列结构模型的隐藏状态有效地表示潜在兴趣【解决问题4.1】,应该对隐藏状态进行额外的监督,例如引入排名信息。在推荐系统中,排名损失已被广泛用于排名任务,例如BPR(贝叶斯个性化排序)[5],目标函数如下:
--->【提出辅助损失】
2、为了捕获与目标物体相关的兴趣发展过程,需要更灵活的序列学习结构【解决问题4.2】。在问答(QA)领域,DMN +使用基于注意力的GRU(AGRU)来推动注意力机制对输入事实的位置和顺序的敏感性。在AGRU中,更新门的向量简单地由注意力得分的标量代替。
--->【提出AUGRU】
创新
基于上述的研究现状以及存在的一些瓶颈,作者提出了一个新模型---Deep Interest Evolution Network (DIEN)。该模型的创新有两个关键点:
兴趣提取器层(interest extractor layer):首先DIEN选择GRU来建模两行为之间的依赖性。其次由于隐藏状态缺乏对兴趣表示的监督,作者提出了辅助损失,即使用下一个行为来监督当前隐藏状态的学习。作者把这些有额外监督的隐藏状态称为【兴趣状态】,有助于捕获更多的语义意义用于兴趣表示,推动GRU的隐藏状态,从而有效地表示兴趣。
兴趣演化层(interest evolving layer):兴趣的多样性会导致兴趣偏移的现象。在相邻的访问中,用户的意图可能非常不同,用户的一个行为可能依赖于很久以前的行为。因此,作者提出建立与目标物相关的兴趣演化轨迹模型,设计了带有注意力机制更新门的GRU---AUGRU。运用兴趣状态和目标物体去计算相关性。AUGRU增强了在兴趣演化中相关兴趣的影响,同时削弱了兴趣漂移所产生的非相关兴趣效应。通过在更新门中引入注意机制,AUGRU可以实现针对不同目标物体的特定兴趣演化过程。
主要贡献
提出一个新的网络结构来对兴趣演化过程进行建模。兴趣表示更具有表达性,CTR预估更精确。
设计了一个兴趣提取层。指出GRU对兴趣表示的针对性弱,故提出辅助损失。
设计了一个兴趣演化层,AUGRU增强了相关兴趣对目标物体的影响。
Deep Interest Evolution Network
特征表示
在该模型中,主要使用4个特征种类:User Profile(用户属性)、User Behavior(用户行为)、Ad(候选广告,亦可以称之为目标物品)、Context(上下文背景)。
User Profile:gender、age;
User Behavior:用户点击过的物品列表, ,各个用户行为长度不同;
Ad:ad_id,shop_id;
Context:time;
每一个特征域都会编码成one-hot向量,上述4个特征域分别可以表示为 。
BaseModel
Embedding
Embedding是将大规模稀疏特征转化为低维密集型特征。在Embedding层中,每一个特征域都对应着一个Embedding矩阵。
例如:
对于用户行为中物品的Embedding矩阵可以表示为:,其中 表示维度为 的embedding向量, 表示物品的总数。
对于某个用户的用户行为:,其中 是用户历史行为的数量。若 ,那么其对应的embedding向量为