mv 无法进行跨设备的移动_一种基于DSSM模型的跨领域深度推荐模型

08e767df5070c90e96091bffef47729c.png

本周阅读论文《A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems》。这是基于DSSM匹配模型的一种跨领域构建用户模型的推荐算法(简称MV-DNN)。该方法采用大量特征编码用户,利用DSSM模型的匹配能力将编码到隐语义空间的用户和item进行兴趣匹配。可看作是一种基于内容推荐的深度方法。

MV-DNN联合了多个域做的丰富特征,包括app、新闻、电影和TV,进行联合模型推荐,相比于最好的算法MV-DNN方法的推荐结果对老用户提升49%,新用户提升110%,提升明显,可用于解决冷启动问题。

动机

为什么是MV-DNN:

  • 协同过滤推荐(CF),无法解决新用户推荐
  • 基于内容推荐,基于在线user-profile的用户兴趣表示不准确

本文提出基于DSSM架构的深度兴趣模型匹配模型,可以很好的将user和item的大量特征编码到隐语义空间,通过兴趣匹配模型学习从user到item的映射关系。既可以满足对新用户的推荐,同时由于利用了大量用户行为做特征,对用户兴趣表示也更加精准。更进一步,本文提出的MV-DNN方法利用跨多个域的信息来补充用户信息,是用户兴趣表达更精准。该方法对新用户推荐提升明显。

此外,为了应对丰富的特征映射到高纬空间向量的效率问题,文章提出了多种有效的降维方法。

DSSM兴趣匹配模型

DSSM模型结构

dssm模型最早被提出是用来提升搜索场景下文档和query匹配的问题。模型结构图如下所示。

32ef93aac9750db615556dbd87bca253.png

模型接受两个输入到两个神经网络中,通过模型编码到同一个语义向量空间。对于搜索排序场景,DSSM模型通过计算doc和query的cosine作为相似度分数,通过相似度分数的对query的相似doc进行排序。

22078cc4810371b7d8db13c2866db9ce.png

模型中激活函数采用tanh函数。

DSSM模型学习

word hashing

为了防止输入token词典过大,模型输入的第一层进行了word hashing。即对每个word进行letter-tri-grams表示,起到了输入降低维度的作用。以web为例。

  1. 添加首尾标记: #web#
  2. 拆分word为n-grams: #we, web, eb#
  3. 过多个小的n-grams的向量表示word。

这样表示,即使出现未登录词,也可以正常处理。

后验因子引入

在训练中,query和doc相关性是由query的点击行为确定的。给定query,doc的点击后验概率被融合进入相关性分数中。

d14fa1fc635a8963fdd41ff2083402d0.png

r是平滑因子,通常被设定为经验值。D是将被排序的doc集合。理论上,D应该是所有doc的集合;实际上,只对在给定query下有过点击的doc集合进行排序,这里用D+表示;D+是D的子集。此外D中还包括随机负采样的N个随机负例。

学习目标

模型的目标函数是给定query下,最大化该query下点击doc的似然。

4c4b27bb561bbbf31358711c01027991.png

MV-DNN跨域模型

单个DSSM模型可以认为是将两种不同场景下的数据融合到一个空间。MV-DNN则是将多个不同场景下数据融合到一个空间。这可以有效的补充用户的行为数据,从而使得用户的表达更加精准。

8b6f96bab1f1d15725ac1e63c71d8ee3.png

文中提到不同的view,可以由不同的输入维度。(这里有点疑惑,用户在召回不同view结果时如何产生候选?)

MV-DNN模型中,每个View都有自己的Weight和非线性激活函数。当对某个view的样例训练时,其他View的input向量均置0。

训练过程

7119a1b08c9877780b595a8203e090cf.png

模型的目标函数是最大化user与所有View的相似度的和

736f2a496afcaec74b517afa448b51d7.png

MV-DNN优势

  1. 与DSSM相比,其query和doc的feature是一样长的维度,使用同样的预处理,限制了feature。而跨域信息feature往往不同,而且n-gram方法并不适用,所以MV-DNN结合其类别特征(如电影和app类别,地理位置等)
  2. MV-DNN的训练构造方式,使其可以方便的加入新的View内的user-item 训练数据。

降维方法

深度方法通常要处理大规模训练数据的大规模特征,文中提出了几种可行的降维方法。

Top feature

选择最频繁的topk个feature,并且用tf-idf过滤掉停用词特征。

K-means

将特征聚类,相似特征聚到同一个类簇中,并将类簇信息表示为新的特征Y。原有特征为N个,聚簇个数为K,特征的维度将从所有特征o(N)降维到类簇个数o(K)。特征处理阶段,新特征Y(y1,y2,...,yi,...,yk-1,yk)具有K个维度,每个维度的值为属于该类簇的特征出现次数加和,最后对Y进行归一化处理。

合适的类簇个数对特征表达能力十分重要。小的类簇个数会导致非常多的内容聚簇在一起,从而导致特征被稀释。文中的特征数有3.5M,尝试聚簇个数10K个,即平均每个类簇包含350个特征。

Local Sensitive hashing

通过一个随机矩阵将输入特征映射到一个低纬度向量表示,同时在新的空间中保持pairwise cos距离关系。A为映射矩阵,Y为映射后得到的新的特征表示,具体映射关系如下

d9672ea6e92deb868185cd81deb33a56.png

为了保证准确性,文中设定Y的维度k=10000,和k-means维度相同。由于LSH的k个维度是随机映射,彼此相互独立,很适合进行并行计算。

缩减训练样例

压缩训练样例,每个用户的训练样例数只压缩为一个。文中具体做法是将同一用户所有训练样本的各维度特征进行分数平均,最终一个用户得到一个训练样本,从而减小user-item pair。

由于训练样本的表示变化,自然的评估方式也会变化。目标函数将改为最大化用户特征和平均特征的相似度。

实验与分析

实验数据来自app,news 和Movie/TV三种跨域数据。

数据特征

User Feature

  • search queries:规范化,然后处理成unigram格式。
  • clicked URLs:只保留主域名,如www.linkdin.com

News Feature

  • 新闻点击历史:
    • title( tri-gram)
    • top-level category(binary features)
    • named entities

App Feature

  • App 下载历史:
    • App tile( tri-gram)
    • category(binary)

Movie/TV Feature

  • movie/TV 观看历史
    • title( tri-gram)
    • description( tri-gram)
    • genre(binary)

实验结论

  1. 对比降维方法,TopK 特征方法取得了最好的效果。K-means和LSH对捕捉用户行为背后的语义信息稍弱。
  2. MV-DNN 引入cross domain信息,对推荐结果有正向提升,尤其是新用户的结果提升明显。

Contribution

  1. 利用丰富的用户特征,建立多用途的用户推荐系统。
  2. 针对基于内容的推荐,提出了一种深度学习方法。并学习不同的技术扩展推荐系统。
  3. 结合不同领域的数据,提出了Multi-View DNN模型建立推荐系统。
  4. multi-view DNN模型解决用户冷启动问题。
  5. 基于四个真实的大规模数据集,通过严格的实验证明所提出的推荐系统的有效性。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值