Neural Feature Embedding for User Response Prediction in Real-Time Bidding (RTB) by Enno Shioji, Masayuki Arai. ArXiv 2017.
https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/TADBY7
https://arxiv.org/pdf/1702.00855.pdf
0 摘要
在广告定位领域,预测用户响应对于许多应用程序(如实时出价(RTB))至关重要。此域中提供的许多特征都是稀疏的分类特征。
这提出了一个挑战,特别是当用户预测的响应很少时,因为每个特征只有很少的正样本。(用户很多时候是不响应的,所以正样本少,比如说看广告,用户可能看100个广告,只点击一个广告)
最近,已经证明在诸如语料库中使用出现次数统计来学习单词的分布式表示的诸如word2vec之类的神经嵌入技术在许多自然语言处理任务中是有效的。
在本文中,我们使用真实世界的数据集来表明类似的技术可用于学习用户网络历史中的特征的分布式表示,并且这种表示可用于提高常用模型的准确性以预测稀有的用户响应。
1 介绍
在给定广告印象的情况下预测用户响应的可能性(例如点击,转换等)对于许多广告应用(例如实时出价(RTB))是至关重要的。由于其时效性,逻辑回归等线性模型是最广泛用于此目的[1]的模型。
模型通常在稀疏分类特征上训练,例如用户代理,访问过的网站的ID等,它们通过单热编码被编码为稀疏二进制特征[1]。这些模型的一个突出问题是数据的稀疏性。特别是当使用特征交互时,特征表示变得非常稀疏,使得难以有效地利用特征。
此外,传统上该行业一直专注于预测点击率,但最近焦点已经转移到优化其他更罕见的用户响应,如转换,这加剧了这个问题[2]。我们将此问题称为特征稀疏性问题。
类似的问题已在自然语言处理(NLP)[3]中被承认。许多主流模型依赖于词袋表示,其遭受上述相同问题的困扰。
最近,已经证明,将单词和文档映射到低维向量空间的称为word2vec,paragraph2vec等的神经嵌入技术在各种NLP任务中产生了最先进的结果[4,5]。
在该方法中,使用语料库中的occurence statisticss学习更泛化的分布式单词表示。
在本文中,我们使用真实数据集来表明类似的技术可以应用于RTB中的用户响应预测。与自然语言处理中的情况类似,可以使用大量用户网络历史来学习高质量的特征表示,然后可以用于预测(罕见的)用户响应。
该技术被证明可以提高常用模型的准确性,特别是当标记数据很少时。
2 相关工作
已经采用各种方法来解决特征稀疏性问题。例如,从人类注释中获得的高阶类别信息,或者通过诸如主题建模,聚类等无监督方法从数据中获得的更高阶类别信息[6,7]已被用于改进泛化。其他技术,如计数特征也可以通过允许罕见特征共同作出贡献[8]。
另一类解决方案涉及将稀疏分类特征嵌入到低维向量空间中。
已经结合深度神经网络研究了产生密集特征的各种特征变换方法,从而改进了主要的最新模型[6]。
张等人。 他们还调查了一个框架,他们称之为隐式外观建模,其中使用一般的网页浏览行为和广告响应行为数据将用户,网页,广告等实体映射到潜在的向量空间[9]。
在本文中,我们报告了将类似于神经词嵌入的特征变换技术应用于RTB中的用户响应预测的初始结果。该技术已成功应用于其他领域,如产品推荐[10,11]。
该技术与NLP中的对应物具有相同的优势,例如编码特征序列的能力,使用新数据逐步更新嵌入的能力,以及自其出现以来已开发的众多改进和扩展的可用性。
结果为应用已成功用于神经词嵌入的技术(如深度神经网络)提供了令人兴奋的机会。
3 用户相应预测的神经特征嵌入
我们首先简要概述Mikolov等[12]开发的神经词嵌入技术。我们考虑一种最简单的形式,即具有单个上下文窗口的连续词袋模型(CBOW)(ps:关于CBOW可以看 cs224n课程笔记2 )给定语料库中的单词 t 和前一单词 c ,我们对θ进行参数化,使得语料库中,条件概率
p
(
t
∣
c
;
θ
)
p(t|c; θ)
p(t∣c;θ)最大化。
p
(
t
∣
c
;
θ
)
p(t|c;θ)
p(t∣c;θ)可以使用soft-max建模,如下所示:
p
(
t
∣
c
;
θ
)
=
e
v
t
⋅
v
c
∑
c
′
∈
C
e
v
t
⋅
v
c
′
p(t|c;\theta) = \frac{e^{v_t \cdot v_c}}{\sum_{c' \in C}e^{v_t \cdot v_c'}}
p(t∣c;θ)=∑c′∈Cevt⋅vc′evt⋅vc
其中
v
t
v_t
vt和
v
c
∈
R
n
v_c \in R^n
vc∈Rn分别是 t 和 c 的向量化表示,C 是所有可能的contexts。
n
n
n 是确定嵌入大小的超参数,并且是根据经验选择的。请注意,我们根据文献使用不同的target( t )和context( c )。这个目标很简单,但计算成本很高。
为了缓解这个问题,使用了一种称为负采样[12]的技术,其中 (t, c) 的随机对是从语料库中采样的,假设它们是错误的。(ps:关于CBOW可以看 cs224n课程笔记2 )
这产生了以下目标:
arg
max
θ
∑
(
t
,
c
)
∈
D
l
o
g
1
1
+
e
−
v
c
⋅
v
t
+
∑
(
t
,
c
)
∈
D
′
l
o
g
1
1
+
e
v
c
⋅
v
t
\arg \max_{\theta} \sum_{(t,c) \in D} log \frac{1}{1+e^{-v_c \cdot v_t}} + \sum_{(t,c) \in D'} log \frac{1}{1+e^{v_c \cdot v_t}}
argθmax(t,c)∈D∑log1+e−vc⋅vt1+(t,c)∈D′∑log1+evc⋅vt1
其中 D 是语料库中所有目标-上下文对(target, context)的集合,D’ 是随机生成的(t, c)对。 现在计算的成本很便宜。
在本文中,我们考虑一个由广告展示组成的数据集。向用户显示广告时,该用户的某些浏览历史记录可用作内容ID序列。因此,将诸如CBOW [12],skip-gram [12]等技术应用于该数据是相对简单的。对于该实验,我们选择丢弃内容ID的序列并仅使用共现信息。
更具体地说,我们通过从用户在印象时消耗的内容ID集合中随机抽样内容ID来生成我们的正样本对,并且从语料库中随机抽取我们的负样本对。众所周知,这种采样的概率分布会影响嵌入的质量[4],但我们对这个初始实验使用了均匀分布。然后,我们使用结果内容嵌入作为用户响应模型中的特征,我们使用逻辑回归来做分类。
4 实验和讨论
4.1 数据集
我们使用了Adform提供的真实RTB数据集。数据中的每条记录都对应一个广告印象,并按时间顺序排序。该记录包含一个二进制标签,用于指示用户随后是否点击了广告(点击),以及用户在过去30天内消费的一组内容ID(content_ids),直至展示时间。
数据来自Adform的2016年7月印象日志。过滤掉没有content_ids可用的记录。此外,由于数据极不平衡,因此以0.01的比率对负例进行下采样。在下采样之后,总共有5.0M的例子,有1.1M的正例。共有891K个不同的内容ID。已发布了具有附加字段的更新,更大版本的数据集[13]。content_ids对应于此数据集中的特征c9。
4.2 实验协议
该实验包括无监督阶段和监督阶段。
- 无监督的阶段 如上所述,从content_ids学习context embedding。即 click字段被丢弃,不用于此阶段。在5.0M数据实例中,最旧的4.0M用于此阶段。我们用不同的嵌入尺寸n( 2 k ∈ [ 1...7 ] 2^{k \in [1...7]} 2k∈[1...7])训练嵌入。Tensorflow [14]用于实现这一阶段。
- 有监督的阶段 在监督阶段,使用不同的特征训练预测点击的二元分类器(见下文)。对于所有实验,使用具有L2归一化的Logistic回归。在剩余的1.0M数据实例中,最新的30%(300K)被保留为验证数据集。使用从剩余数据(700K)中随机取样的不同数量的数据(0.3K,1K,10K,100K)进行训练。为了评估模型的性能,使用ROC曲线下面积(AUC),这是评估RTB中用户响应预测模型的常用度量[1]。采用不同的正则化强度(
1
0
k
∈
[
−
2...1
]
10^{k \in [-2...1]}
10k∈[−2...1])和嵌入尺寸进行网格搜索,最佳结果用作测量。scikit-learn [15]用于实施。
以下是我们比较的特征列表:- SR 稀疏二进制。content_ids通过单热编码被编码为稀疏二进制特征。这是我们的baseline。
- DR分布式表示。所得嵌入的每个维度按其最大绝对值进行缩放。对于content_ids中的每个content_id,查找相应的嵌入,并将嵌入的平均值用作特征向量。因此,所得到的特征向量具有与嵌入相同的长度n。
- SR+DR稀疏二进制和分布式表示。连接SB和DR的特征向量。
4.3 性能比较和讨论
表1显示了使用上述网格搜索获得的每种条件的最佳结果。 将SB + DR和DR的结果与SB(我们的基线)进行比较。当训练数据稀缺时,DR优于SB。 SB + DR在所有条件下都优于SB,尤其是在训练数据稀少时更强。这可能是因为当训练数据稀缺时,稀疏性问题更加严重,因此跨特征推广的能力具有更大的影响。然而,当大量数据可用时,DR的低维特征表示可能限制各个内容ID之间的区分程度。当SB和DR连接时,可以保留两个优点。
图1显示了针对不同嵌入尺寸(n)的DR和SB + DR的SB基线的AUC差异。增加n会改善AUC,但是在大约16维后,回报会减少。
5 推论
在本文中,我们报告了使用真实数据集将神经特征嵌入技术应用于RTB中用户响应预测的初步结果。据我们所知,这是第一次将此技术应用于此问题。我们已经证明该技术可以提高业内常用模型的性能,特别是当标记数据稀缺时,特征稀疏性问题最为严重。大量数据可以容易地用于训练特征嵌入,并且常用的逻辑回归可以在预测时使用,这使得该结果成为工业实现的理想选择。
结果还为应用基于神经词嵌入的改进和技术提供了令人兴奋的机会,例如整合全局上下文,使用每个单词的多个表示[16],使用目标标签优化特定监督任务的嵌入[17] ,使用全局对数双线性回归代替早期的局部上下文窗口方法[18],在嵌入等上应用深度神经网络。
6 参考文献
- Wang, J., Zhang, W., Yuan, S.: Display advertising with real-time bidding (RTB)
and behavioural targeting. CoRR abs/1610.03013 (2016) - Dalessandro, B., Hook, R., Perlich, C., Provost, F.: Evaluating and Optimizing
Online Advertising: Forget the Click, But There are Good Proxies. Social Science
Research Network Working Paper Series (October 2012) - Bengio, Y., Ducharme, R., Vincent, P., Janvin, C.: A neural probabilistic language
model. J. Mach. Learn. Res. 3 (March 2003) 1137–1155 - Mikolov, T., Sutskever, I., Chen, K., Corrado, G., Dean, J.: Distributed representations
of words and phrases and their compositionality. CoRR abs/1310.4546
(2013) - Le, Q.V., Mikolov, T.: Distributed representations of sentences and documents.
CoRR abs/1405.4053 (2014) - Zhang, W., Du, T., Wang, J.: Deep learning over multi-field categorical data: A
case study on user response prediction. CoRR abs/1601.02376 (2016) - Zhang, W., Yuan, S., Wang, J.: Real-time bidding benchmarking with ipinyou
dataset. CoRR abs/1407.7073 (2014) - He, X., Pan, J., Jin, O., Xu, T., Liu, B., Xu, T., Shi, Y., Atallah, A., Herbrich,
R., Bowers, S., Candela, J.Q.n.: Practical lessons from predicting clicks on ads at
facebook. In: Proceedings of the Eighth International Workshop on Data Mining
for Online Advertising. ADKDD’14, New York, NY, USA, ACM (2014) 5:1–5:9 - Zhang, W., Chen, L., Wang, J.: Implicit look-alike modelling in display ads: Transfer
collaborative filtering to CTR estimation. CoRR abs/1601.02377 (2016) - Nedelec, T., Smirnova, E., Vasile, F.: Content2vec: Specializing joint representations
of product images and text for the task of product recommendation. Unpublished
Manuscript (2017) - Barkan, O., Koenigstein, N.: Item2vec: Neural item embedding for collaborative
filtering. CoRR abs/1603.04259 (2016) - Mikolov, T., Chen, K., Corrado, G., Dean, J.: Efficient estimation of word representations
in vector space. CoRR abs/1301.3781 (2013) - Shioji, E.: Adform click prediction dataset. Harvard Dataverse
doi:10.7910/DVN/TADBY7 (2017) - Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat,
S., Irving, G., Isard, M., Kudlur, M., Levenberg, J., Monga, R., Moore, S.,
Murray, D.G., Steiner, B., Tucker, P.A., Vasudevan, V., Warden, P., Wicke, M.,
Yu, Y., Zhang, X.: Tensorflow: A system for large-scale machine learning. CoRR
abs/1605.08695 (2016) - Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O.,
Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A.,
Cournapeau, D., Brucher, M., Perrot, M., Duchesnay, E.: Scikit-learn: Machine
learning in Python. Journal of Machine Learning Research 12 (2011) 2825–2830 - Huang, E.H., Socher, R., Manning, C.D., Ng, A.Y.: Improving word representations
via global context and multiple word prototypes. In: Proceedings of the 50th
Annual Meeting of the Association for Computational Linguistics: Long PapersVolume
1, Association for Computational Linguistics (2012) 873–882 - Labutov, I., Lipson, H.: Re-embedding words. (2013)
- Pennington, J., Socher, R., Manning, C.D.: Glove: Global vectors for word representation.
In: Empirical Methods in Natural Language Processing (EMNLP).
(2014) 1532–1543