论文阅读——多模式推荐系统综述:分类、评估和未来方向

推荐算法可分为协同过滤(collaborative filtering,CF)、基于内容的过滤和混合推荐系统。

协同过滤基于分析和收集用户的历史行为数据,包括历史交互(例如,点击、浏览、购买)和用户偏好(例如,评级)。

基于内容的过滤基于用户的用户简介和项目简介来建议产品。项目是用关键词描述的,用户的个人资料将表达用户喜欢的项目类型。这种方法的主要思想是用户可能会选择他们以前喜欢的类似项目。

混合方法结合了协作过滤和基于内容的过滤的不同技术,以获得更好的结果。

•简介

传统推荐方法的缺点——为了达到更高的推荐准确率,需要大量用户与项目之间的交互。为了解决数据稀疏和冷启动问题,多模态信息被引入推荐系统。

多模态模型能够表示和发现不同模态之间隐藏的关系,并可能恢复单模态方法和隐含交互无法捕获的互补信息。为了将多模态信息合并到推荐系统中,当前的方法是从不同模态中提取特征,然后使用模态融合结果作为辅助信息或项目表示。

•多模态推荐的管道

多模态推荐系统旨在通过多模态特征来学习用户和项目的信息表示。

第一步是从原始数据中提取模态特征。

提取后的特征可以选择在输入层、模型中间层、输出层进行融合。

•特征提取

特征提取的目的是用嵌入以低维和可解释的方式描述模态特征。

模态数据可以通过两种方式使用。

第一种是将预先提取的模态数据传递到模型中,第二种是通过应用端到端学习将原始数据传递到该模型中。

大多数MMRec模型设置遵循第一种方法来使用预提取的特征。不同的模态数据具有模态特定的提取方法。

常用的多模态数据集与使用这些数据集的论文如下:

•模型分类

早期:

矩阵分解与多层感知机(MLP)

目前:

1)引入深度学习,自动编码器、可变式自动编码器;

2)开始使用图卷积网络(GCN)学习每个模态的表示,然后将模态表示和id嵌入融合在一起,作为最终的项目表示。基于GCN结构,研究人员引入了知识图、注意力机制、边提炼等融合方式。

3)预训练和微调

基于矩阵分解的模型

矩阵分解是一种协同过滤方法。利用矩阵分解法将用户-项目交互矩阵分解为两个低维矩形矩阵的乘积。

基于深度学习的模型

1.多层感知机

多模式特征的丰富来源可以代表用户偏好的不同方面。在JRL[69]框架中,使用MLP将不同的信息源投影到统一空间中。学习将多模态特征转为用户和项目嵌入中的权重。
同时,已经使用特征重建损失来学习相关联的用户和项目表示。

[69]Yongfeng Zhang, Qingyao Ai, Xu Chen, and W Bruce Croft. 2017. Joint representation learning for top-n recommendation with heterogeneous information sources. In Proceedings of the 2017 ACM on Conference on Information and
Knowledge Management . 1449–1458.

2.卷积神经网络(CNN)

CNN是一种具有卷积层和池化操作的前馈神经网络,用于处理多模态特征。大多数基于CNN的推荐系统利用CNN来提取特征或通过捕捉全局和局部特征来学习表示。

3.注意力网络

注意力机制是由人类的注意力驱动的。注意力机制模拟用户将对不同模态或一个模态的不同方面给予不同的关注(用户的多模态信息),这可以捕捉用户的偏好并丰富用户表示。

也可以用于构建item的多模态表示

4.循环神经网络

5.自编码器

Auto-Encoder,中文称作自编码器,是一种无监督式学习模型。它基于反向传播算法与最优化方法(如梯度下降法),利用输入数据X本身作为监督,来指导神经网络尝试学习一个映射关系,从而得到一个重构输出X^R。在时间序列异常检测场景下,异常对于正常来说是少数,所以我们认为,如果使用自编码器重构出来的输出X^R跟原始输入的差异超出一定阈值(threshold)的话,原始时间序列即存在了异常。

通过Encoder将数据压缩至一个低维向量表示,这就被当做数据的隐层表示,利用Decoder再将这个低维向量解码得到重构的数据,最小化重构误差。

参考:

【深度学习】 自编码器(AutoEncoder) - 知乎

Variational AutoEncoder系列 - 知乎

6.变分自编码器(Variational Autoencoder)

AutoEncoder被指责只能简单地“记住”数据,生成数据的能力上很差。因此诞生了VAE,它对于生成训练集之外的数据的解决方案就是,限制encoder生成的隐变量都服从正态分布,且尽可能逼近标准正态分布。此时,生成一幅新图片将变得很简单,只需要从标准正态分布中采样出一个隐变量,再将隐变量输入decoder即可。


作者:追忆__
链接:https://www.jianshu.com/p/ff28eef92fa1
来源:简书

7.图神经网络

图神经网络已被证明在学习不同领域的图形数据表示方面具有强大的功能。通过将用户-项目关系视为图关系,可以很容易地将其扩展到推荐系统。推荐中的大多数数据都可以用图形结构表示。

•模态融合

1.直接融合(侧重各个模态的item信息,融合以表示item)

直接融合为每个节点提取的多模态嵌入,使用多模态嵌入作为节点表示,然后应用GNN技术;其他模型构建特定于模态的图来学习每个模态的表示,然后将GNN的输出融合为最终表示。

PMGT:利用融合的多模式特征和交互的预训练模型。对于提取的多模式嵌入,这里使用了注意力机制来获得多模式嵌入。然后,多模式表示将位置嵌入和基于角色的嵌入添加到一起作为初始化的节点嵌入。然后,基于节点嵌入开始预训练和下游任务。

2.异构图融合(除了各模态下的item特征信息,还考虑了用户-项目交互图中的信息)

异构图是一种包含不同类型节点的信息网络。使用GCN或GAT在用户项目二分图上直接执行特征聚合,如图所示。

•测试和优化

典型的损失包括均方损失(MSE)、成对损失、交叉熵损失和贝叶斯个性化排名(BPR)损失。当涉及到top-k建议时,通常使用最后两个损失函数,但MSE和成对损失使用较少。MSE总是用于评级预测。

基本成对丢失通常不使用,但存在一些更新版本。加权Ap近似秩成对(WARP)[60]通过考虑排名来更新基本成对损失,该排名对排名较低的正项目的惩罚比排名顶部的正项目严重得多。虽然BPR[41]将前k项任务作为一个排序问题来处理,鼓励对给定用户将积极的事物排序在消极的事物之上,但交叉熵损失将前k个任务作为一种分类挑战来处理,并使目标用户u和目标项目i尽可能相似。BPR损失更适合top-k推荐,大多数模型都在应用这种损失进行优化

•数据集和实验结果

数据集

一些常用的数据集规模巨大,有大量的用户、项目和互动,如快手和抖音,其中一些数据集不向公众开放。

Tiktok和Kwai数据集的网站已经不支持开放下载了!!!

amazon数据集的元数据包含文本描述和图像的URL,这些图像可以用作文本和视觉模式。对于收集的食物数据集,配方和配料被用作文本模态,食物图像是视觉模态。我们使用预先训练的句子变换器[40]提取384维的文本特征,并根据[67]使用已发布的4096维视觉特征。在获得文本和视觉嵌入后,我们将用户评分视为一种积极的互动,然后基于评论评分构建用户项目图。

我们为读者提供了一个使用基线模型运行数据集或基于该框架实现自己的模型的框架。该框架由Pytorch实现,输入格式简单,包括文本嵌入、视觉嵌入和交互图。
除了ADDVAE[50]之外,以下模型已经在我们的框架中实现,并进行了实验来比较它们的推荐性能。请注意,BPR和LightGCN不使用多模式信息,而仅使用历史用户-项目交互。

实验结果

1.内容感知方法总体上比基于CF的方法(例如,BPR、LightGCN)实现了更好的性能,这表明多模式特征总是提供关于项目的更丰富的信息,并帮助推荐模型达到更高的准确性。
尽管基于BPR构建的VBPR的推荐精度有了很大的提高。MMGCN[59]总是显示出比不利用多模式信息的LightGCN更差的性能。正如LightGCN[16]所指出的,正是由于设计不合理,许多噪声会影响性能。MMGCN是早期为多模式推荐设计的模型,当时LightGCN技术尚未发表,但对于DualGNN[53],它利用了LightGCN的优势来学习模态用户项二分图,并取得了更好的性能。
此外,现有的内容感知方法在很大程度上取决于多模式特征的代表,这将导致不同数据集之间的性能波动

具体而言,FREEDOM[73]在婴儿和运动数据集上实现了最佳性能,但在食品和电子数据集上排名较低,这些数据集是具有约170万次交互的巨大图形。FREEDOM适用于小型图,但不适用于大型图。除了FoodRec数据集之外,ADDVAE的排名总是很高,这可能是因为FoodRec的数据集是从网站上提取的,该数据集的文本特征很混乱,信息很难被利用。对于食品数据集,这些模型之间只有很小的差异。SLMRec的性能总是取决于数据集,并且该模型具有长时间的参数搜索过程。LATTICE和BM3在实验数据集上表现稳定,性能等级高于基于CF的方法和早期开发的多模式模型,如MMGCN和VBPR。

图的大小和消耗的资源也会影响算法的选择。
LATTICE构建了一个项目图,该模型需要许多资源才能运行,尽管它在大多数数据集中表现良好,但无法应用于大型图。FREEDOM[73]可以对小型数据集实现高精度,但应用于大型图的性能并不是最好的。它比LATTICE需要更少的计算资源,但实现了更高的性能。
SLMRec可以应用于不同大小的图,但参数搜索过程较长。我们可以通过分析许多数据集的结果来减少不敏感的参数,从而简化搜索过程。BM3适用于所有大小的数据集,并且可以在消耗较少资源的情况下实现较高级别的性能。

不同数据划分方法的推荐性能比较

1.随机划分

用户时间划分是根据用户互动的时间戳将历史互动按比例划分为训练集、验证集和测试集,其中测试集包括用户最近一定比例的互动。这种方法主要考虑了用户的互动时间,但未考虑全局时间。全局时间划分则是根据所有用户共享的时间点按比例划分数据,其中后续互动被视为测试集,而后续互动涉及的用户必须在训练集中。这种方法更贴近实际场景,但会减少用户数量。因为删除了不在训练集中的用户。应用场景包括推荐系统和其他时间序列数据分析领域,用于评估模型性能和进行预测。

2.基于用户时间划分

3.基于全局时间划分

表9报告了10个SOTA模型在不同拆分策略下的排名。行是根据随机拆分策略下模型的性能进行排序的,上下箭头指示与随机拆分相比的相对排名位置交换。在不同的拆分策略下,可以观察到模型之间的排名交换。例如,GRCN[58]在全局时间分割下的排名将比随机分割低四个位置,BPR、VBPR和LightGCN的性能超过了随机分割。对于我们的实验,它表明最有效模型和最弱模型的性能等级不会受到影响,只有中等性能模型的等级在不同的分裂策略下发生了变化。此外,基于时间的拆分将导致推荐系统的冷启动问题,这些问题被认为是通过利用多模式信息来解决的。正如性能排名所示,在所有拆分策略中,基于内容的模型的总体性能都优于基于CF的模型。然而,我们得到了一个相反的发现,即发生的交换有一个粗略的模式:基于CF的模型更有可能在时间评估下提高排名,但一些基于内容的模型(例如DualGNN和GRCN)的排名会更低。
我们猜测原因可能是一些基于内容的模型没有正确利用多模式特征,这无助于解决冷启动问题,而是在面临冷启动问题时成为噪声信息。

大多数多模式推荐系统使用随机分割策略,很少有模型使用用户时间分割和全局时间分割。然而,由于推荐系统无法获得未来的数据作为训练数据,因此时间设置更接近现实场景。稳健的推荐系统应该在所有的分裂策略上表现稳定。模型的行为取决于如何学习表示以及如何选择实例。
因此,我们可以得出结论,数据分割策略是影响模型性能的关键因素,不同情况下的模型需要选择合适的分割策略。然而,我们只是从简单的实验中获得了一些肤浅的灵感,我们只在sports数据集上运行了10个模型。如果你对不同拆分的影响感兴趣,你可以应用更多的模型和更多的数据集来发现潜在的问题。

不同模态的推荐性能比较

多模式信息已被引入推荐系统,这有助于缓解冷启动问题。一些模型利用模态信息作为辅助信息来丰富项目表示,而一些模型则利用它与交互信息来增强用户表示或捕捉用户偏好。

我们首先在婴儿和运动数据集上进行实验。结果表明,在所有数据集上,只有具有多模式特征的GRCN[58]优于具有单个文本或视觉特征的GRCN。
对于其他模型,利用单一模态信息可能比融合模态获得更好的性能,这表明简单地通过求和、加权求和和和连接来融合模态表示对学习项目表示没有用处。简单的融合将破坏从每个模态学习到的模态特定信息和模态偏好。特别是对于DualGNN[53],文本和视觉的单一模态比模态的融合获得了更好的性能,这表明所使用的融合方法会影响所学习的表示的质量。
此外,我们发现表征与语篇情态的关系更为密切文本模态性能优于或接近于多模态性能,如图4所示。我们在思考数据集是否会影响结果,以及我们测试的数据集是否更专注于文本模态。然后我们尝试了服装数据集,其中视觉特征更重要,但结果仍然表明了文本模态的重要性。

对于融合问题,我们需要找到合适的方法来融合多模态表示,同时保留特定模态的信息和捕获单个模态不包含的互补信息。期望的结果是多模态表示优于单模态表示。

对于文本模态与多模态具有更好或接近相等的性能的问题,第一个原因是融合方法影响表示的质量,第二个原因可能是通过MLP层到潜在空间的高维视觉嵌入会压缩数据并错过一些模态特定的特性。此外,我们发现基线模型的一些消融研究也包含多模态和单模态的性能比较[53,59],并且多模态优于单模态,但数据集尚未公布。所以最后一个原因
可能是因为不同的数据集集中在不同的模态上。微视频数据集更专注于视觉模态,它包含更多的视觉模态信息,以帮助学习有意义的表示。

•挑战和未来的研究方向

在推荐系统中利用多模式信息与实际应用高度相关。近年来,多模式内容在电子商务和社交平台上被广泛用于推荐产品或相关项目。
在这项调查中,我们对多模式推荐领域中最新和最流行的模型进行了回顾和分类。特别是,我们引入了多模式推荐系统的分类法,根据模型利用的技术对模型进行分类,以利用有利于推荐的多模式信息。此外,我们还介绍了多模态推荐的过程,并列出了用于进行特征提取、模态融合和评估的常用技术。此外,我们建立了一个通用框架可以帮助新的研究人员轻松运行基线模型,并了解推荐模型是如何设计的。读者还可以利用这个框架更容易地开发自己的模型,并将其与基线进行比较。
在回顾和研究过程中,我们发现了一些挑战和未来可能的研究方向:

1.如何有效利用多模式特征的未来研究方向?
(1) 找出一种有效的模态融合方法,该方法可以捕获单个模态无法包含的互补信息。

(2) 如何解决模态缺失问题,重构有意义的表征。

由于模态信息被证明有助于推荐,如何设计模型以更好地利用多模态成为研究的挑战。正确利用多模式特征可以提高性能,但错误使用会使其成为噪声信息。
如上所述,我们的实验表明,通过利用模态信息可以提高推荐系统的性能,但对于一些模型,单个模态也将获得良好的性能,甚至比一起利用多模态信息还要高。我们猜测,对于这些模型,多模态的融合导致了这个问题。每种模态都可能捕捉到项目的不同方面,我们应该找到一种方法,将它们融合在一起,同时保留模态特定的信息,以学习包含单个模态表示无法包含的补充信息的多模态表示。如果模型能够有效地融合多模态特征,则推荐精度应该高于使用单一模态。

此外,模态缺失问题在现实世界中很常见。然而,一些模型假设所有模态信息在训练和推理过程中都是可用的,这在面对不完整和缺失的模态时是不起作用的。LRMM[52]通过利用生成模型重建模态特定嵌入并估算缺失模态,缓解了模态缺失和冷启动问题。

2.如何标准化数据拆分策略和使用通用的数据集?

在未来的工作中,我们应该找到最佳的预处理方法,采用合适的提取技术和合适的分割策略来标准化实验的训练/测试集。

正如先前的实验所表明的,即使在相同的数据集和评估指标下,使用不同的数据分割策略,模型也会获得不同的性能数字,不同的分割策略也会影响模型性能的等级。虽然最常用的是随机分割,但基于时间的分割更接近现实场景。稳健的多模式推荐模型无论是随机分割还是时间分割都应该表现良好。

3.评估指标

推荐模型的评价是一个重要的研究课题。推荐系统不仅应考虑准确性,还应考虑其他推荐质量,如推荐列表的多样性和独特项目的存在,这可能会对推荐系统的整体质量产生重大影响[18]。此外,[11]指出,对于一般性推荐的评估可能不会完全适用于多模态推荐。对有效性的考虑不仅体现在准确性,还要体现在用户体验和公平性

4.研究与应用差距

多模式推荐不仅受到学术界和行业界的研究。所使用的数据、可用的信息甚至应用场景在它们之间都是不同的。此外,在真实世界的情况下,不断增加的数据量是一个巨大的挑战。可扩展性和时间复杂性是在工业界选择模型的关键考虑因素。正如我们之前所说,工业研究处于一个更现实的环境中。
学术研究的一些设置应该标准化,更实用,以开发适合工业场景的模型。所需的推荐系统应稳健且易于应用于现实场景。未来应研究更多关于如何有效推荐的工作:
(1) 在面对大型数据集时,平衡模型的复杂性和可扩展性

(2)高维张量和多模态信息的计算效率。

5.多模态序列推荐

顺序推荐系统不同于使用协作过滤和基于内容的过滤的推荐系统,因为它试图理解和建模用户随时间的顺序行为。多模式信息会极大地影响用户的偏好,然而,大多数现有的顺序推荐模型都忽略了这些有用的信息。MML[37]结合了项目的多模式辅助信息,以改进和稳定元学习过程,并有助于解决冷启动问题。因此,在顺序推荐系统中利用多模式信息将是未来工作的一个重要方向。

6.跨域推荐

跨域推荐系统利用来自其他域或平台的行为信息来提高目标域的性能。常用的技术依赖于显式重叠数据(例如,常见用户和项目)来跨域传输数据。
最近,一些工作学习了可以应用于跨领域推荐的用户和项目的通用表示。UniSRec[17]利用文本信息来学习通用项目表示,而不需要常见的用户和项目,这可能适用于不同的领域。在未来,利用多模态信息可能能够帮助模型学习通用表示。

•结论

在这项调查中,我们对多模态推荐系统进行了广泛的回顾。我们为MMRec提供了一个清晰的管道,并列出了每个步骤中常用的技术。我们根据用于组织和聚类现有出版物的学习方法对模型进行分类。我们还在四个常用的数据集上进行了实验,以评估模型的性能,并为用户提供了一个通用的框架,以便更容易地运行模型和开发他们的模型。此外,我们还详细介绍了一些紧迫的挑战和有前景的未来研究方向。
每年都有大量新开发的技术,我们希望我们的调查能为研究人员提供有用和详细的概述,该框架为运行模型提供了一种简单有效的方法,并鼓励未来的进展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值