香港大学黄超教授领导的数据智能实验室,与微信研发团队联合开发了一种基于扩散模型的全新多模态推荐系统范式 - DiffMM。这项创新性成果融合了扩散模型技术,能够有效利用多种模态数据,为用户提供个性化、精准的多媒体内容推荐服务。
论文标题:
DiffMM: Multi-Modal Diffusion Model for Recommendation
论文链接:
https://arxiv.org/abs/2406.11781
代码链接:
https://github.com/HKUDS/DiffMM
实验室主页:
https://sites.google.com/view/chaoh
TLDR
随着在线多模态分享平台(如 TikTok 和 YouTube)的迅速发展,个性化推荐系统可以将视觉、文本和音频等多种模态融合到用户表示中。然而,数据稀疏性问题仍然是这些系统面临的一个重大挑战。为了应对这一问题,近年来的研究引入了自监督学习技术,以增强推荐系统的性能。然而,现有的方法通常依赖简单的随机增强或直观的跨视图信息,这可能会引入无关噪声,并且难以精确地将多模态上下文与用户-项目交互进行匹配。
为了解决这一研究空白,作者提出了一种新颖的基于多模态图扩散的推荐模型,称为 DiffMM。该框架结合了模态感知图扩散模型和跨模态对比学习范式,以提升模态感知用户表示的学习效果。这种整合方式有助于更好地对齐多模态特征信息与协同关系建模。
DiffMM 利用扩散模型的生成能力自动构建用户-物品图,这个图能够表示不同模态下的用户-物品交互信息,从而有助于将有用的多模态知识融入到用户-物品交互建模中。作者在三个公共数据集上进行了大量实验,结果表明,DiffMM 在各种基准模型中表现出了显著的优越性。
研究背景
多媒体推荐系统在电子商务和内容共享应用中扮演着关键角色,这些应用涉及大量网络多媒体内容,如短视频、图片和音乐。这些系统处理多种类型的内容特征,包括视觉、声学和文本特征,从而能够细致地捕捉用户的兴趣。例如,VBPR [1] 扩展了矩阵分解框架以处理物品的多模态特征。ACF [2] 引入了一个层次注意力网络,用于识别用户在组件级别的偏好。
最近,诸如 MMGCN [3]、GRCN [4] 和 LATTICE [5] 等方法利用图神经网络(GNNs)将模态信息整合到信息传递过程中,以推断用户和物品的表示。然而,大多数现有的多媒体推荐系统依赖于大量高质量标记数据(即观察到的用户交互)进行监督训练。在现实生活中的推荐场景中,用户交互数据相对于整个交互空间是稀疏的,这限制了监督模型生成能够准确表示复杂用户偏好的嵌入。
最近的研究提出了一些解决方案,通过将自监督学习(SSL)技术与多模态特征相结合,来增强多模态推荐任务的效果。例如,CLCRec [6] 和 MMSSL [7] 采用了基于互信息的自监督学习方法来丰富多模态特征中的物品嵌入。同时,MMGCL [8] 和 SLMRec [9] 引入了随机扰动来进行对比学习,以增强模态特征。
然而,这些方法常常依赖于简单的随机增强或直观的跨视图嵌入对齐,可能会引入不相关的噪音信息,包括用户误点击行为或流行偏差所导致的增强型自监督信号。因此,需要一个自适应的模态感知增强模型,以实现更准确的自监督学习,并能够有效地将多模态上下文信息与相关的协同信号对齐,用于用户偏好学习。这将确保在多媒体推荐系统中稳健地建模模态感知的协同关系。
为了解决上述问题,作者提出了 DiffMM,一种新颖的多模态图扩散模型,用于推荐任务。受到最近扩散模型在各个领域任务中的出色表现的启发,DiffMM 专注于利用扩散模型的生成能力,生成一个多模态感知的用户-物品图,以有效地对用户-物品交互进行建模。
具体而言,作者通过逐步破坏的过程,向用户-物品交互图引入随机噪声。然后,通过一个逆向过程,反复恢复经过 步累积噪声的破坏图,以还原原始的用户-物品图结构。
为了进一步引导逆向过程并生成一个多模态感知的用户-物品图,作者引入了一个简单而有效的多模态感知信号注入机制。通过生成的多模态感知的用户-物品图,作者进一步提出了一种多模态感知的图神经网络范式,用于多模态图的聚合。这使得 DiffMM 能够有效地捕捉与不同模态相关的用户偏好。此外,作者还提出了一个跨模态对比学习框架,通过不同模态下用户-物品交互模式的一致性,进一步增强推荐系统对多模态上下文的学习能力。
模型方法
DiffMM 的总体框架图如下所示,主要分为三个部分:1. 多模态图扩散模型,它通过生成扩散模型来实现多模态信息引导的模态感知用户-物品图的生成。2. 多模态图聚合,该部分在生成的模态感知用户-物品图上进行图卷积操作,以实现多模态信息的聚合。3. 跨模态对比增强,采用对比学习的方式来利用不同模态下用户-物品交互模式的一致性&