[知识点整理]使用论文内容和用户行为对论文推荐进行个性化的重新排序(Personalised Reranking of Paper Recommendations Using Paper Conte)

原文:Li X , Chen Y , Pettit B , et al. Personalised Reranking of Paper Recommendations Using Paper Content and User Behavior[J]. ACM Transactions on Information Systems, 2019, 37(3):1-23.

摘要

        学术搜索引擎(academic search engines)已经被广泛应用于获取论文,用户的需求被表示为搜索查询。一些新的推荐系统在没有显式查询的情况下,来预测用户的信息需求。在本文中,讲介绍一个学术论文推荐系统,该推荐系统能够根据用户在学术搜索引擎上的历史浏览记录并以电子邮件简讯(newsletters)的形式发送论文推荐。具体来说,“我们”关注的是那些经常在搜索引擎上浏览论文的用户,然后“我们”首次注册了(sign up for)推荐简讯(recommendation newsletter)。我们处理的任务是g给由推荐系统系统为此类用户生成的推荐文章进行重新排序。

        面对的挑战之一是,我们所关注的用户之前并未与系统产生交互,这也是每个新用户首次登录系统时遇到的情况。作者提出了一种利用论文内容和用户行为来重新排序候选推荐(candidate recommendations)的方法,该方法是为了适应我们的学术推荐设置所特有的特点而设计的。例如,可以使用内容相似性度量(content similarity measures)来查找候选推荐与用户先前浏览的论文之间的最接近匹配。为此,我们使用一个从论文元数据(metadata)派生的知识图谱(knowledge graph)来比较嵌入空间中的实体相似性(论文、作者和期刊)。由于我们关注的用户没有与推荐系统的交互,我们提出了一个模型来学习从用户浏览的文章到用户对推荐点击的映射。我们将内容和行为结合到一个混合的重新排序模型中,该模型的性能显著优于基本模型,平均精度相对提高了13%,在预测1中精度提高了28%。此外,我们还提供了模型部件的详细分析,强调了是如何提升性能的。

介绍

        尽管普通的学术搜索引擎可以满足指定查询的需求,然而在某些情况下,用户的需求并没有指定,比如用户想到了解前沿论文来了解新进展,用户可能不知道输入什么来进行查询,这时系统无需用户输入查询,就可以推荐相关论文。论文推荐系统与搜索引擎有互补(complementary)的作用。可能的推荐系统大概分为三种:

  1. 根据用户的论文库或者之前浏览过的论文,在用户搜索之前就显示论文推荐。
  2. 搜索时,在用户当前正在浏览的内容旁显示论文推荐。
  3. 搜索后,以邮件方式发送推荐论文。

        在本文中,将重点研究第三种情况。作者提出了一种混合模型,该模型结合了内容和行为来对ScienceDirect的推荐系统所生成的推荐文章进行重新排序。首先提出了几种对内容的度量,接下来。使用联合矩阵分解(joint matrix factorization)来学习从用户在搜索引擎浏览的文章打用户对推荐论文点击的映射,本文使用成对学习模型(pairwise learning model)来对候选推荐论文进行重新排名,最终在基于真实数据的离线评估中获得了更好的结果。

贡献

1.学术设置的“任务转移(“task transfer)”:为一项任务(搜索)收集的数据用于帮助优化另一项任务(推荐)的性能。

2.如何结合论文内容和用户行为生成推荐。

模型

  • Production Baseline

该模型将用户的论文浏览记录作为输入然后生成一个五篇推荐论文的排名表(ranked list)。这五篇候选论文是由项(论文)之间的基于邻居的协同过滤算法和SicenceDirect浏览日志的用途相似性(usage similarity)生成并排序的,之后称论文间相似性为浏览相似性(browsing similarity)。在本研究中,用重排模型对五篇推荐论文,然后将重排模型与Production Baseline进行比较,如果成功,该系统可以用于更多的候选论文推荐。

  • 提出的模型(Proposed Model)

        模型架构如下图:

        该模型使用两层前馈神经模型作为评分功能,输入层从每份论文中获取特征,输出层包含一个输出评分的结点。Srecent和Shistory是候选推荐论文和用户浏览论文的相似性,它们分别通过将候选论文与最近的论文和历史论文进行比较,包含每个论文方面的平均相似性得分;不同领域的论文和最近/历史论文的注意特征来自用户浏览的论文。

        production system所使用的浏览相似度特征是基于ScienceDirect浏览数据的:我们使用每个推荐候选论文在与浏览历史中论文进行比较的平均相似度得分和最大相似度得分。行为特征描述的行为模型的预测点击分数。这些特征共同决定了混合重排模型(Hybrid Reranking Model,HRM)的输入。 训练是通过优化每个用户u的未点击论文Ru-和点击论文Ru+的偏好的成对铰链损失(pairwise hinge loss)来完成的:

        f(x)表示神经网络的评分函数,xpi和xpj为点击论文pi和pj的特征表示。

        我们在隐藏层上应用ReLU激活函数,在输出层上应用线性激活函数,来确保损失函数的值无限(unbounded)并且实验的结果足够好。

        主要符号及其解释:

论文表述

        每篇论文p被表示为多个不同方面的集合,方面分为一下几类:

  1. 来自论文p的元数据:作者A,期刊V(venue),新鲜度F(freshness),词空间W(word space),实体空间E(entity space)。
  2. 来自与用户交互的元数据:影响力I(impact)和受欢迎程度P(popularity)。

        这些方面可供方案中所有的论文和用户使用, 并且对推荐系统很有用。考虑作者和期刊的原因是用户可能对来自同一或相似的作者或期刊的论文感兴趣。此外,词空间和实体空间测量内容的相似性(measure content similarity)也很有用。用户在搜索论文时会偏向于浏览在某个领域有较高影响力的论文或目前在社区比较热门、跟踪最新进展的文章。

        我们可以把每篇论文p表示为一个元组(tuple):p = <A(p),V (p), F (p),W (p), E(p), I (p), P (p)>,其中每个方面分别定义如下:

        ai表示论文p的第i个作者,vi表示论文发布在期刊vi上,tcurrent和tpublush(p)分别代表当前时间和p的发布时间,cc(p)为论文p的评分数量,cmax为所有论文中的评论最多数。d代表下载量,表示与c相同。

        词空间:为了表示论文的词空间W(p),我们使用TF-IDF向量,包含标题、摘要和关键词的单词和二元短语的值。在计算前,会删除停用词,包含非常常见和罕见的单词,最后每篇论文的单词会被表示成一个2^21大小的稀疏向量,并通过散列值获得其中的所索引。

        实体空间:实体空间比的表示形式E(p)能够提供更多的附加信息,该信息通过图嵌入(graph embedding)结合了结构和语义(semantic)。

        首先基于论文的重要方面(作者、期刊、关键字等)建立一个知识图谱,图谱包含四个结点类型:论文、作者、关键词和期刊结点,记忆论文和方面之间的三个谓词(关系):hasAuthor、hasKeyword、publishedInVenue,分别表示有这个作者,有这个关键词和在这个期刊发表。

        接下来,使用TransE模型获得基于知识图谱的嵌入,模型采用三元组作为输入,形式为(h,r,t),分别表示头实体(head entity)、关系谓词和尾实体(tail entity),该模型的摸底是学习嵌入,使得如果(h,r,t)在训练集中,h+r在t的近邻(proximate neighborhood),如果不再训练集则会远离t。最小化成对铰链损耗函数:

        T表示三元组 的训练集,通过将头实体或尾实体替换为另一个随机实体来获得负样本(h',r,t')。 训练完后,结点嵌入的余弦距离(cosine distance)反映了它在知识图谱的接近程度。由于知识图谱的计算成本高,所以在子图谱计算嵌入而不是完整的图谱。之后将图谱用作TransE模型的输入,来得出图谱的结点嵌入,最后得到了论文、作者和期刊的嵌入。嵌入将在内容相似性度量中用到。

用户表示(User Representations)

        用户表示是用户u在其浏览记录中都以论文集的形式出现:

        作者将用户浏览的论文分为两个部分:最近浏览Precent和历史浏览Phistory,按照用户最近浏览的论文的时间线开始,我们根据分类将pi划分至对应类。在学术搜索中,用户的兴趣可能会随着时间而变化,做出这种细分可以将近期兴趣与历史兴趣做出比较,并查看是否存在偏差。比如,如果最近浏览的包括至少两篇不同论文在内的话,将会归为Precent,剩下归为Phistory,否则,我们选择最近的θ篇论文归为Precent,然后剩余归为Phistory,并且进行去重(deduplicated)。

内容相似性(Content Similarities)

        内容部分衡量了基于论文元数据中候选推荐论文和用户浏览过的论文的相似性,相似分数组成的输出将来输入到重排模型中。

领域级相似性(Field-level Similarities)和注意特征(Attention Features)

        首先介绍了单个领域的相似性度量,用户比较同领域的论文相似性,当比较论文pi和pj时,相似性度量如下:

对单词空间和实体空间,我们用论文的向量形式计算余弦相似度:(v和v'为两个向量)

        余弦相似度范围为-1到1。词空间和实体空间相似性表示为:

        Wpi为TF-IDF向量,Epi为pi从TransE的输出中获得的论文实体向量。

        论文pi的期刊实体向量Evpi和作者am的作者实体向量Eam从TransE模型中获得。当比较期刊和作者相似性时使用软匹配(soft match)算法,与相似性最终表达为1或0(对应相同或不同)的完全匹配(exact match)算法,软匹配算法输出连续的评分。基于期刊(SimV)和基于作者(SimA)的相似度定义为:

        其中vpi是论文pi的期刊,Evpi是对应的论文实体向量,Api是pi的作者集合,Eam是作者am的实体向量。在作者相似度函数中,我们从较少的作者集中检查每个作者然后在另一组中找到最相似的一位,然后计算相似度平均值,确保该函数是对称的。

        使用L1距离和调整后的权重来获得新鲜度、影响力和受欢迎程度的相似性:

        仅当同领域的论文都具有很高的值时,才定义权重来获得相似性。

领域级注意(Field Level Attention)

        现在已经知道了如何获得X (V , A, F , I , P, W, E)的七个选项的评分,我们想进一步了解用户浏览论文时可能关注的特定领域,这些注意特征是隐式的,但是可以从用户交互历史记录来推断。每个领域计算出的平均成对相似度作为领域级注意特征。field i的注意特征是它的成对相似性除以Precent中论文对的数量(下式分母):

最近和历史注意

        用户的最近和历史交互都可能为推荐提供证据,作者将最近论文和历史论文区分开,当用户最近的兴趣与他们的历史兴趣不同时,推荐系统应该意识到这种偏离。因此定义了这种情况下的注意特征,αrecent和αhistory代表用户在最近论文和历史论文中的注意分数。

        距离函数DIstance(x,y)是通过每篇最近论文与其在历史论文集中最近的论文的距离求平均得到的:

        其中1-cos(Wpi,Wpj)为两篇论文TF-IDF向量的余弦距离。

行为(Behavior)

        论文元数据从内容的角度为推荐提供了证据,用户的交互包括用户在搜索引擎上点击以及在推荐电子邮件上点击也提供了良好的信号。在我们的场景中,用户有过去的浏览行为,但是在他们第一次与推荐系统交互之前没有点击。不过仍然可以使用浏览论文的相似性,它们基于ScienceDirect上所有用户的关系提供了基于行为的相似性度量,自然可以将此外部相似性信息纳入我们的模型。

        因此设计一个行为模型,该模型利用了交互日志中的点击和浏览问题,提出了一个学习从用户浏览论文到点击电子邮件的映射函数,表示为R~BM,B和R是m*n大小的浏览和点击矩阵,n*n大小的M是一个映射函数,n是一个非常大的数字,因此给计算M带来巨大负担,于是将M分解为两个低维矩阵的乘积:

        预测用户u在论文pi上的评分:

        bi是论文pi的偏移量,Bu+,使用户u浏览过的论文集,由于偏移量是未知的,所以先忽略掉。正如基于item的协同过滤方法所建议的那样,我们不将pi从B+u中排除(exclude)。因为候选论文集与浏览过的论文集不一定重叠。(pi.pj)是一个论文对,对每个用户学习Q、bi和bj,(pi是浏览过的论文,pj是未浏览过的论文),并优化贝叶斯个性化排序给出的成对损失函数:

        σ(x)代表sigmod函数,来从浏览历史中保留论文间的相似性,当sij比较大时,qi和qj间的(欧几里得)距离比较小,可以定义以下相似性正则化项:

        Tr(x)是矩阵的迹函数,D是对角矩阵,对角线上的值是浏览相似矩阵(browsing similarity matrix)S的每行元素的和:

        L=D-S是图的拉普拉斯矩阵(Laplacian matrix),把L(u,pi,pj)与相似性正则化项两式结合起来模型如下:

        目标函数中的第一项捕获每个用户对邮件中显示的论文的成对偏好。第二项通过图谱正则化(graph regularization)在浏览历史中保留论文间的相似性。图谱正则化被广泛用于保留相似性,例如社会正则化(social regularization)和局部正则化(locality regularization)。第三项调整Q以避免过度拟合。α和λ是超参数。

        本文通过随机梯度下降来优化上述方程,即对于每个用户u,我们采样正项i∈R+u和负项j∈R-u,并针对(u,i,j)优化方程(。首先训练上述方程,然后训练混合重排模型(HRM)给出基于行为的模型生成的输出分数。基于行为的模型通过抽样来获取项目之间的隐含关系,而HRM则假设输入之间的独立性来执行小批量训练。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值