『 DSSM』A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems

最新推荐文章于 2024-07-15 21:12:35 发布

百川AI

最新推荐文章于 2024-07-15 21:12:35 发布

阅读量1w

点赞数 3

分类专栏：论文 DeepLearning 文章标签：深度学习 DSSM Multi-view

DeepLearning 同时被 2 个专栏收录

41 篇文章 6 订阅

订阅专栏

论文

16 篇文章 1 订阅

订阅专栏

Abstract

MULTI-VIEW-DNN联合了多个域做的丰富特征，使用multi-view DNN模型构建推荐，包括app、新闻、电影和TV，相比于最好的算法，老用户提升49%，新用户提升110%。并且可以轻松的涵盖大量用户，解决冷启动问题。

主要做user embedding的过程，通多用户在多个域的行为作为一个ivew，来表征用户，参与用户embedding过程。

Contribution

利用丰富的用户特征，建立多用途的用户推荐系统。
针对基于内容的推荐，提出了一种深度学习方法。并学习不同的技术扩展推荐系统。
结合不同领域的数据，提出了Multi-View DNN模型建立推荐系统。
multi-view DNN模型解决用户冷启动问题。
基于四个真实的大规模数据集，通过严格的实验证明所提出的推荐系统的有效性。

Data Set

Type	DataSet	UserCnt	FeatureSize	Joint Users
User view	Search	20M	3.5M	/
Item View	News Apps Movie/TV	5M 1M 60K	100K 50K 50K	1.5M 210K 60K

DSSM FOR USER MODELING IN RECOMMENDATION SYSTEMS

deep structured semantic model参考Learning deep structured semantic models for web search using clickthrough data。

结构图：

把条目映射成低维向量。
计算查询和文档的cosine相似度。

其中：

$l_1 = W_1 x$

$l_i = f(W_i l_{i-1} + b_i), i=2,..., N-1$

$y = f(W_N l_{N-1} + b_N)$

word hashing

通过word hashing层将word映射为稠密向量。以good为例。

添加首尾标记: #good#
拆分word为n-grams: #go, goo, ood, od#
通过多个小的n-grams的向量表示word。

这种方法即使有新词出现，也不会出现问题。

DSSM训练

对于一次搜索，如果点击了一个文档，认为他们是相关的。对于搜索查询集，DSSM去最大化被点击文档 $D^+$ 的条件似然概率**。

$P(D^+|Q) = \frac{exp(\gamma R(Q, D^+))}{\sum_{D^\prime \in D} exp(\gamma R(Q,D^\prime))}$

其中D是全集， $\gamma$ 是平滑因子。损失函数自然就是：

$\prod_{(Q, D^+)} P(D^+|Q)$

MULTI-VIEW DEEP NEURAL NETWORK

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-n3vFFq9l-1602238284044)(https://raw.githubusercontent.com/InsaneLife/MyPicture/master/dssm4.png)]

对于User view，计算User View和Item View之间的 $P(IV_i|UV)$ ，然后最小化：

$\prod_{(UV, IV^+)} P(IV^+_i|UV)$

其中P()定义为：

$P(IV^+|UV) = \frac{exp(\gamma cos(UV, IV^+))}{\sum_{IV^\prime \in IV} exp(\gamma cos(UV,IV^\prime))}$

Data input

对于第j行输入数据，它的主域 $X_{u, j}$ 和一个激活View $X_{a, j}$ ，其余的View输入 $X_{i:i \not= a}$ 都为0向量。

User features

search queries：规范化，然后处理成unigram格式。
clicked URLs：只保留主域名，如www.linkdin.com

News features

news article clicks：

title( tri-gram)
top-level category(binary features)
named entities

App features

App download histories:

App tile( tri-gram)
category(binary)

Movie/TV feature

movie/TV view history

title( tri-gram)
description( tri-gram)
genre(binary)

训练过程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qgf3AmpE-1602238284046)(https://raw.githubusercontent.com/InsaneLife/MyPicture/master/Multi-view%20DNN.png)]

训练目标：

原文公式：

$p=arg\max_{W_u, W_1,... W_v} \sum^N_{j=1} \frac{exp(\gamma_a cos(Y_u, Y_{a, j}))}{\sum_{X^\prime \in R^{d_a}} exp(\gamma_a cos(Y_u,f_a(X^\prime, W_a))}$

训练目标：

$L(W_u, W_1,... W_v) = \sum^N_{j=1} \frac{exp(\gamma_a cos(Y_u, Y_{a, j}))}{\sum_{X^\prime \in R^{d_a}} exp(\gamma_a cos(Y_u,f_a(X^\prime, W_a))}$

最小化L()为目标得到 $W_u, W_1,... W_v$ ，即网络的参数矩阵。

MV-DNN优势

和DSSM相比，其query和doc的feature是一样长的维度，使用同样的预处理，限制了feature。而跨域信息feature往往不同，而且n-gram方法并不适用，所以MV-DNN结合其类别特征（如电影和app类别，地理位置等）。
MV-DNN可以结合多个跨域信息，实现对user embedding。pair-wise training过程，user-item pairs。

降维方法

top features

对于user features，选取top-k最频繁的features。并通过TF-IDF过滤掉最常用的特征。

k-means

k-mean会指定k为类簇的个数，目标是最小化所有类簇点与中心点的距离只和。公式表达:
$\min_{C_1,C_2,…C_k} \sum_{i=1}^N \min_{C_j \in {\{C_1, C_2…,C_k\}}} distance(X_i, C_i)$
其中 $X_i$ 是数据点， $C_j$ 是每个类簇的中心。通过K-means对相似的特征群分组为同一个cluster并生成新的特征，共生产k个新的特征。

应用：

对于输入数据矩阵X，shape=[size=n, dimension=k]，划分为 $X=[f_1, f_2…, f_k]$ ，然后将每个 $f_k$ 归一化，对 $f_1, f_2…, f_k]$ 使用k-means聚类， $f_i$ 之间计算距离用cos相似度。然后就可以将特征降维到k维，对于每个新的特征向量 $Y_i, 1\leq i \leq n, 1 \leq Cls(a) \leq k$ 有：

$Y_i(j) = \sum_{a:X_i(a)>0 \&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp; Cls(a)=j} f_i(a)$

比如原始维度是3.5M，设置k=10k，那么将为之后维度就是10k。

Local sensitive Hashing

通过一个随机的矩阵将数据映射到低纬向量空间上，并且保持原始空间上的pairwis cos距离在新的空间上仍然获得保留。

原始维度d，降维到k，那么映射矩阵 $\in R^{d \times k}$ ，即A包含了k个映射，每个映射 $A_i$ 都将X映射为 $Y_i$ ，输出为 $\in R^k$ 。计算 $Y_i$ 的公式为：
$Y_i = \left\{ \begin{aligned} 1 & & if A_i X \ge 0 \\ 0 & & else \end{aligned} \right.$
计算 $X_1, X_2$ 的cos相似度近似表示为： $cos(\frac{H(Y_1, Y_2)}{k} \pi)$ ，其中 $H(Y_1, Y_2)$ 表示汉明距离，论文选取的k=10000.