©PaperWeekly 原创 · 作者 | 云航
学校 | 武汉大学硕士生
研究方向 | 推荐系统
多样性推荐对提升用户体验和系统销量均有重要意义,然而,如何在推荐结果的准确性和多样性之间取得平衡始终是一个难题。此外,现有推荐系统忽略了领域和用户在多样性偏好上的分布差异,例如有的用户倾向于购买过去常买的物品(回头客),而有的用户倾向于不断尝试新的物品。
论文提出在多样性推荐中建模领域级别和用户级别的多样性偏好,并设计了带有自适应平衡策略和度量学习的双分支网络架构。首先,双分支架构使得模型具备了自动调整准确性和多样性重要程度的能力;其次,自适应平衡策略通过自适应地确定双分支中的学习重点来建模领域级别的多样性;最后,在每个分支中,构建了双向自适应度量学习骨干网络,可以捕获用户对特定物品的兴趣(用户级别的多样性)和物品对目标用户的定位。
论文在三个真实数据集进行了大量的实验,结果表明论文方法在总体指标上取得了显著的改进。论文代码和数据集均已公布在 GitHub 网站。
论文标题:
Enhancing Domain-Level and User-Level Adaptivity in Diversified Recommendation
作者:梁贻乐(武汉大学)、钱铁云(武汉大学)、李青(香港理工大学)、阴红志(澳大利亚昆士兰大学)
论文链接:
https://dl.acm.org/doi/pdf/10.1145/3404835.3462957
代码及数据链接:
https://github.com/NLPWM-WHU/EDUA
摘要:由于能够融入用户的个人品味,推荐系统在在线平台中发挥着至关重要的作用。除了准确性之外,多样性被认为是扩大用户视野和促进企业销售的关键因素。然而,如何在推荐结果的准确性和多样性之间取得平衡仍然是一个巨大的挑战。更重要的是,现有的方法都没有考虑领域级别和用户级别的多样性分布差异。
论文着重于在多样性推荐中增强领域级和用户级的自适应性。具体而言,我们首先用自适应平衡策略将领域级的多样性编码为一个广义的双向分支网络;其次我们为每个分支构建双向自适应度量学习的主干网络,进一步捕获用户级的多样性。我们在三个真实世界的数据集上进行了广泛的实验。结果表明,我们提出的方法相较于现有的方法有显著的提升。
引言
多样性推荐可以被视为双目标优化问题,即最大化推荐列表的整体相关性,并尽量减少列表中物品之间的相似性。该领域的早期工作通常采用后处理(两阶段)策略,首先基于准确性生成一个候选集,然后通过最大化多样性度量来选择几个物品作为推荐结果。
最近部分方法将 determinantal point process(DPP)应用于建模集合多样性,也有少量改进将多样性推荐设置成端到端(一阶段)的监督学习。图 1(a)-(c) 展示了普通推荐、一阶段和两阶段的多样性推荐模式,同时也在图 1(d) 中显示了论文方法的独特之处:将领域级别和用户级别的多样性偏好纳入推荐框架。
尽管现有的多样性推荐方法已取得不错的效果,但其仍然存在固有的局限性。
局限一:现有方法没有考虑领域级别和用户级别的多样性分布差异。首先,即使用户的兴趣比较固定(多样性较低),这些方法仍然会给用户推荐一个多样化的结果。其次,现有方法的推荐策略不会随着领域的不同而做出改变。
局限二:所有的后处理方法和基于 DPP 的方法,都需要额外的参数来平衡多样性与准确率,端到端的方法 DCF 也同样需要参数来生成最后的推荐结果。
局限三:目前的研究将推荐视作为用户寻找物品的任务,但是,产品在设计和生产时也往往有其自身的市场定位,这不应被忽视。
图 2 绘制了三个领域的用户多样性偏好分布。每个用户的多样性分数通过交互类别的数量除以交互物品的数量来计算,分数越高,多样性就越丰富。可以观察到不同领域的多样性分布具有显著差异。有趣的是,大多数用户在选择电影类别时都有很大的变异性,而部分用户对音乐类型有相对固定的偏好,我们将其称为领域级别的多样性。
同时还发现,即使在同一领域,每个用户也有自己的多样性偏好。例如,在 MovieLens 中,尽管大多数用户的多样性偏好都很大,但少量用户的多样性值很小,我们将其称为用户级别的多样性。
领域级别和用户级别的多样性分别反映了领域数据和个体用户的特征,应该在推荐系统中得以反映。如果平等对待所有领域和所有用户,将明显降低推荐的性能,并影响用户体验。不幸的是,现有的任何方法都没有考虑到这两种类型的多样性。
为解决上述问题,论文提出了一个新的框架 EDUA,以增强多样性推荐系统中领域级和用户级的自适应性,并解决费力的参数调优和产品导向问题。论文的主要贡献在于:
论文采用视觉领域的双边分支网络作为基本架构,两个独立分支的体系结构使模型具备权衡准确率和多样性的能力,而无需对参数进行调优(对应局限二);
论文进一步提出了一种自适应平衡策略,通过自动确定双边分支之间学习重点来编码领域级的多样性(对应局限一);
每个分支内设计了一个双向自适应度量学习骨干网络,用于捕获了户对特定物品的兴趣和物品对目标用户的定位(对应局限三),然后将用户级多样性作为连接用户与物品的特殊关系(对应局限一)。
问题定义
是一组用户, 是一组物品,其中 M 和 N 表示相应的数量。设 为用户-物品交互矩阵,表示用户是否购买/点击物品。交互矩阵的定义为:
交互矩阵中,观察到的项反映了用户的兴趣,未知项是用户未接触数据和负样本的混合。推荐系统的任务是,根据交互矩阵为用户推荐最有可能交互的 Top-K 个物品。
除此之外,论文特别关注推荐的多样性,旨在为每个目标用户产生多样化的推荐。一方面,推荐质量是通过推荐列表和真实列表之间的匹配分数来评估。另一方面,多样性是通过列表的类别覆盖范围(category coverage, CC)和列表内距离(intra-list distance, ild)来测量。
论文方法-EDUA
双分支网络(BBN)的基本思想起源于视觉识别任务,用于表示学习和分类器学习,以提高长尾数据的识别性能。直觉上,BBN 结构能够分离两个目标的优化过程,对应多样性推荐任务时,其中一个目标是准确性,另一个目标是多样性。然而,直接应用 BBN 并不适合我们的任务。
固定的学习顺序妨碍了 BBN 适应领域级的多样性。在 BBN 中,表示学习始终是分类器学习的基础,应该首先进行训练。相比之下,在多样性推荐中,多样性或准确性都可能成为首要目标。
BBN 的分支采用传统的残差网络骨干,而这不适合我们的任务。原因在于我们需要测量用户和推荐物品之间的距离,而且我们还希望捕获每个用户的多样性偏好。
为此,我们开发了一个新的 BBN 范式,有以下两个关键属性来解决上述两个缺陷:
(1)我们提出一个自适应学习策略编码领域层面的多样性,通过自动选择学习重点,取代了原来双分支之间的固定学习顺序。
(2)我们设计了一个双向自适应度量学习骨干,用于建模用户到物品和物品到用户的关系,并且能够自适应地捕获用户级别的多样性。
EDUA 模型的总体框架如图 3 所示:
具体地,我们采用双分支网络为主要架构,其中一个分支用于提高传统推荐的准确性,另一个分支关注个体多样性,分别称为“传统学习分支”和“自适应学习分支”。此外,每个分支中,都采用具有独立参数的双向自适应度量学习骨干网络。
3.1 增强领域级的适应性
现有的推荐系统存在偏向于推荐和用户兴趣类似的热门商品的问题。例如,如果用户最近看了一部浪漫电影,典型的推荐将是一系列冗余和类似的电影。为了解决这个问题,我们使用 BBN 作为主要架构,其中一个传统的学习分支保持了推荐相关物品的能力,而一个自适应学习分支专注于被传统学习所忽略的物品。此外,为了提高领域级别多样性的自适应性,我们首先根据领域偏差选择两个分支的学习焦点,然后使用不同的采样策略将采样的结果送到对应的分支中去。
3.1.1 确定两个分支学习的重点
首先我们计算了用户多样性分布X的偏度(skewness)分数,其定义为:
具有零偏度的分布是正态分布,正负分布表示左右偏度的分布。对于偏态分布,模型应更加强调自适应学习分支,对于正态分布,则应强调传统的学习分支。为此,对偏态分布,控制参数 ɑ 对应于自适应学习分支,1-ɑ 对应于传统学习分支。对正态分布,控制参数 ɑ 对应于传统学习分支,1-ɑ 对应于自适应学习分支。
3.1.2 确定每个分支的采样策略
对于传统学习分支,采样策略不变,即均匀采样。
对于自适应学习分支,采样策略结合了用户的多样性偏好。假设用户 的交互物品集合为 ,用户交互过的物品的类别为 , 中类别 i 在 中的个数为 。假设用户 u 的多样性分数为