【论文阅读】Teach Me How to Denoise A Universal Framework for Denoising Multi-modal Recommender Systems

Teach Me How to Denoise: A Universal Framework for Denoising Multi-modal Recommender Systems via Guided Calibration

原文地址: 这里

【 GUIDER 】题目翻译:“教我如何去噪:一种基于引导校准的通用多模态推荐系统去噪框架”

这篇文章提出了一个通用的多模态推荐去噪框架 GUIDER,通过细粒度模态相似度校准和基于最优传输的知识蒸馏,有效抑制多模态噪声,显著提升了推荐系统的准确性和鲁棒性。

摘要

摘要 随着多媒体内容的激增,多模态推荐系统(MMRecs)应运而生,通过整合文本、图像、视频和音频等多种模态,实现更个性化的推荐。然而,由于各模态内容之间存在错配,以及模态语义与推荐语义的差异,MMRecs 面临噪声数据的挑战;而传统的去噪方法因多模态数据的复杂性,难以有效应对此类问题。为此,我们提出了一种通用的引导同步蒸馏去噪框架 GUIDER(Guided In-sync Distillation for Denoising),旨在通过去除用户反馈中的噪声来提升 MMRecs 的性能。具体而言,GUIDER 首先采用再校准策略,从多模态内容中识别出干净交互与噪声交互;然后引入去噪化贝叶斯个性化排序(DBPR)损失函数,以去除隐式用户反馈中的噪声;最后利用基于最优传输(OT)距离的去噪知识蒸馏目标,指导模态表示向推荐语义空间的映射。GUIDER 可以即插即用地集成到现有的多模态推荐方法中,作为推荐去噪的通用解决方案。在四个公开数据集上的实验结果表明,该框架在多种 MMRecs 方法上均展现了良好的有效性和普适性。

一、引言

推荐系统作为强大的信息过滤引擎,在电商【36】、短视频分享【30, 47】和社交媒体平台【14】等多种场景中得到广泛应用。传统推荐系统以 ID 为基础【19, 20, 33】,为每个用户/物品分配唯一标识符(ID),并将其转换为嵌入向量,从用户–物品交互中学习偏好。为了利用丰富的多媒体内容挖掘用户兴趣,多模态推荐系统(MMRecs)【3, 6, 24, 45, 47, 51, 52】通过特定模型的编码器融合物品的多模态内容(如商品文本描述和图片封面),并挖掘模态间的细粒度关系以捕捉模态特定的用户偏好。这一范式转变能够缓解冷启动问题【22】并展现更好的可迁移性【8–10, 27, 28, 41, 51】,随着诸如 GPT-4【1】、CLIP【31】、DALLE【32】和 LLaMa【40】等强大多模态基础模型的出现,这一方向得到进一步普及。

开发高性能推荐系统的一个重大障碍是噪声交互问题。与基于 ID 的推荐系统(IDRecs)类似,多模态推荐系统(MMRecs)也会受到伪造用户反馈带来的噪声交互影响,这些噪声可能源于误点击或出于好奇的行为,无法准确反映用户真实偏好。此外,在多模态推荐环境下进行去噪还面临独特挑战,如图 1 所示。第一个挑战是来自模态内容的噪声,文本或图像描述可能具有误导性或与实际不相关(图 1(a) 和 2(b))。第二个挑战是映射不一致,不同类别的物品(例如背带、智能手机和婴儿服)在视觉上可能非常相似,导致推荐中的语义不对齐(图 1©)

图1

image-20250516225533074

Figure 1 从三个角度直观地展示了多模态推荐系统在去噪时所面临的典型困难:

  1. (a)文本模态噪声(Noisy textual content)
    如图中所示,不同商品的标题或描述可能包含冗余、误导甚至不相关的信息——例如“Elastic Suspender Braces with Leather Junction”与“Rotating Flip Turn Bluetooth Keyboard Case”都属于完全不同的商品类别,但文本描述并未准确反映它们的实际用途或类别。这种噪声会导致模型在挖掘用户偏好时,将注意力放在与真实兴趣无关的关键词上。

  2. (b)视觉模态噪声(Noisy visual content)
    即便图像内容本身清晰,也可能与推荐任务毫无关联。比如一个商品图可能只是展示品牌logo或包装细节,而并未传递出用户真正关心的属性(如功能、款式等)。模型如果直接将这些视觉特征与用户历史交互关联,就容易将“无关”信息误判为用户喜好。

  3. (c)跨类别视觉相似性(Similar visual representations across categories)
    不同类别的物品在视觉上可能非常相似,比如某些婴儿服装的柔和色调和设计,与成人服饰在色彩和纹理上并无明显区分;又或是挂钩类配件与电子产品的外观轮廓相似。这样的“视觉语义”错位会使得模型倾向于在错误的类别间建立联系,从而降低推荐的准确性。

这三个子图共同说明,仅靠单一模态(文本或图像)去噪,或简单地基于 ID 嵌入空间去清洗噪声,都不足以解决 MMRecs 中的复杂噪声污染问题。因此,GUIDER 框架正是通过跨模态的协同校准与最优传输蒸馏,来分别识别并剔除这三种类型的噪声。

为缓解噪声交互问题,现有大多数研究集中于基于 ID 的方法,主要通过样本选择【39, 42】或样本重加权【11, 12, 42】来对隐式反馈进行去噪。这些方法的直觉是:噪声的用户–物品交互较难被推荐模型拟合,因此通常表现为较低的相似度分数并带来较大的损失值。然而,我们在第 3.2 节的实验表明,这一假设在 IDRec 环境下虽然成立,但在多模态推荐环境中由于 ID 嵌入空间与多模态表示空间之间存在显著差异而不再适用,如图 2 所示。在多模态空间中,噪声交互(例如 (u₂, i₁))在 ID 嵌入空间中虽表现出低相似度,但在多模态空间中却难以被检测;另一方面,真实交互(例如 (u₂, i₂))若其模态表示有噪声,也可能产生较大损失值,从而同样难以区分。这种差异导致在 MMRecs 上直接应用传统去噪损失时,许多真实的用户–物品交互会被误判为噪声。因此,我们认为专为 IDRec 设计的方法并不足以应对多模态推荐的去噪需求,亟需针对 MMRecs 独特特性开发一套通用且高效的去噪框架。

简单来说,这段话是在说:

  1. 传统去噪思路:在普通的 ID 推荐里,人们发现那些“假点击”或者“无意义的交互”——也就是噪声交互——往往不符合用户真实喜好,模型学习时对它们的预测很差(损失大),或是它们在用户和物品的向量空间里离得比较远(相似度低)。因此,大家就按“损失大”或“相似度低”来挑出噪声,把它们去掉或降权。
  2. 多模态推荐的麻烦:但一旦把文本、图片、视频这些信息都混合进来,物品的表示就变得更加复杂。这个混合后的“多模态空间”跟纯粹的 ID 空间差别很大。结果是:
    • 有些确实是噪声的交互,在这个多模态空间里看起来却挺“正常”,反而难以被模型察觉;
    • 而有些真实的、用户真正喜欢的交互,因为文字或图片本身有点问题(比如描述不准、图像和标签不符),在多模态空间里反而看起来“奇怪” —— 损失很大、相似度很低,被误判成噪声。
  3. 结论:所以,拿 ID 推荐那套“看谁损失大就当噪声”的方法,直接用在多模态推荐上,会把很多有价值的真实交互给错杀,也漏掉真正的噪声。我们需要一种专门针对多模态特性来去噪的新思路,而不是简单地搬用旧方法。

为了解决上述挑战,我们提出了一种面向多模态推荐的引导同步蒸馏去噪框架 GUIDER——一个旨在增强 MMRecs 的通用去噪方案。具体而言,GUIDER 首先引入自适应模态相似度校准(AMSC),通过基于文本与视觉模态语义相似度的细粒度再校准策略,对可靠样本与噪声样本进行重新划分,从模态内容中识别出噪声交互。随后,GUIDER 设计了去噪贝叶斯个性化排序(DBPR)损失函数,利用 AMSC 识别出的正例与噪声负例,对用户隐式反馈中的噪声进行去除。鉴于我们在实证研究中发现,直接对 MMRecs 应用去噪损失函数不可行,GUIDER 通过先使用 DBPR 训练一个去噪的 IDRec 教师模型,再将该去噪教师模型作为学生 MMRec 的指导,通过知识蒸馏(KD)【21】的方式,实现在从模态表示空间向推荐语义空间的迁移过程中有效剔除噪声。此外,考虑到标准的 KL 散度往往会引发过度平滑【25】模型塌陷【2】问题,我们提出了一种基于最优传输(OT)距离【7】的 KD 目标,用于蒸馏推荐 logits,使其成为具备稳定梯度的对称距离度量,更加适合用于知识蒸馏。

我们的工作:

• 我们识别了多模态推荐系统(MMRecs)去噪所面临的独特挑战,并揭示了现有基于 ID 的去噪方法在应对多模态噪声时的局限性。
• 针对这些挑战,我们提出了 GUIDER——一种通用的 MMRecs 去噪框架,结合基于模态语义的细粒度再校准策略与基于最优传输(OT)距离的引导知识蒸馏,实现了对多模态内容的高效去噪,并显著提升了推荐性能。
• 我们在四个基准数据集上进行了大量实验证明 GUIDER 的有效性和通用性,展示了其作为即插即用去噪框架在不同数据集与噪声条件下的广泛适用性。

二、相关工作

2.2 推荐去噪
在推荐系统数据集中,噪声无处不在,因此有必要通过去噪方法净化用户–物品交互。经典的 WBPR [11] 方法将用户尚未交互的热门物品视为真实负反馈。T-CE [42] 通过截断损失值超过动态阈值的交互,对噪声交互在损失函数中的贡献进行削减。R-CE [42] 则对损失值应用重加权函数,以降低噪声交互的影响。SGDL [48] 利用模型的“记忆效应”来指导推荐去噪,并引入去噪调度器以增强鲁棒性。DeCA [43] 则通过不同模型预测的一致性作为隐式反馈的去噪信号。BOD [44] 提出了高效的双层优化框架,用于学习用户–物品交互的去噪权重。

备注:针对多模态推荐系统(MMRecs)中噪声问题的研究仍较有限。我们的 GUIDER 框架填补了这一空白,提出了一个通用的去噪方案,将去噪任务从传统的基于 ID 的推荐系统扩展到多模态推荐情境中。

三、 预备知识

3.1 问题定义

IDRec 与 MMRecs
U U U 为用户集合, I I I 为物品集合,用户–物品交互数据为

D = { ( u , i , r u i ) ∣ u ∈ U ,    i ∈ I } , D = \{(u, i, r_{ui}) \mid u \in U,\; i \in I\}, D={(u,i,rui)uU,iI},

其中标签 r u i ∈ { 0 , 1 } r_{ui} \in \{0,1\} rui{ 0,1} 表示用户 u u u 是否与物品 i i i 发生了交互(如点击或评论)。为了从隐式反馈中捕捉用户偏好,推荐系统通常学习用户表示 { h u ∈ R d ∣ u ∈ U } \{h_u \in \mathbb{R}^d \mid u \in U\} { huRduU} 和物品表示 { h i ∈ R d ∣ i ∈ I } \{h_i \in \mathbb{R}^d \mid i \in I\} { hiRdiI},并以潜在维度 d d d 为大小,优化以下推荐损失(例如逐点二元交叉熵损失):

L R e c ( D ) = ∑ ( u , i , r u i ) ∈ D [ − r u i log ⁡ ( s u i ) − ( 1 − r u i ) log ⁡ ( 1 − s u i ) ] (1) \mathcal{L}_{\mathrm{Rec}}(D) = \sum_{(u,i,r_{ui}) \in D} \Bigl[-r_{ui}\log(s_{ui}) - (1 - r_{ui})\log(1 - s_{ui})\Bigr] \tag{1} LRec(D)=(u,i,rui)D[ruilog(sui)(1rui)log(1sui)](1)

其中

s u i = h u ⊤ h i s_{ui} = h_u^\top h_i sui=huhi

是对用户–物品对 ( u , i ) (u,i) (u,i) 的预测相似度得分。在传统的基于 ID 的推荐(IDRec)中, h u h_u hu h i h_i hi 来自于嵌入矩阵;而在多模态推荐(MMRecs)中, h u h_u hu h i h_i hi 则通常通过将文本和视觉特征分别经由模态专用编码器提取后融合得到。

这个式子是对所有用户–物品对 ( u , i ) (u,i) (u,i)逐点二元交叉熵损失(pointwise Binary Cross-Entropy)求和,用来衡量模型预测分数 s u i s_{ui} sui 和真实交互标签 r u i r_{ui} rui 之间的差距。拆开来看:

L R e c ( D ) = ∑ ( u , i , r u i ) ∈ D [ −   r u i   log ⁡ ( s u i )    −    ( 1 − r u i )   log ⁡ ( 1 − s u i ) ] \mathcal{L}_{\mathrm{Rec}}(D) = \sum_{(u,i,r_{ui})\in D} \bigl[ -\,r_{ui}\,\log\bigl(s_{ui}\bigr) \;-\;(1 - r_{ui})\,\log\bigl(1 - s_{ui}\bigr) \bigr] LRec(D)=(u,i,rui)D[ruilog(sui)(1rui)log(1sui)]

  1. 正例部分
    r u i = 1 r_{ui}=1 rui=1(用户 u u u 与物品 i i i 真实交互过,比如点击过),损失项变为

    − log ⁡ ( s u i ) . -\log\bigl(s_{ui}\bigr). log(sui).

    如果模型给出了很高的

### 回答1: dncnn-denoise-gaussian-noise-tensorflow-master 是一个基于 TensorFlow 框架的去噪神经网络模型。 DNCNN(Dense Convolutional Neural Network)是一种密集卷积神经网络,用于图像去噪任务。它具有多个卷积层,每个卷积层都具有更多的卷积核,以增加网络的感知能力。这使得 DNCNN 在处理图像中的高斯噪声方面表现出色。 该模型的主要目标是去除图像中的高斯噪声。高斯噪声是一种常见的图像噪声,它具有随机性和连续性,由于传感器的限制、信号传输中的干扰或图像采集过程中的其他因素而产生。这种噪声会降低图像的质量并影响后续图像处理任务的效果。 通过训练,dncnn-denoise-gaussian-noise-tensorflow-master 模型学习如何通过卷积层进行特征提取,并使用残差学习来学习重建干净图像。网络的输入是噪声图像,输出是去噪后的图像。通过对许多含有噪声和干净图像对的训练样本进行迭代训练,模型能够学习去除高斯噪声,并还原出更清晰的图像。 该模型主要依赖于 TensorFlow 框架来构建神经网络结构和进行训练。TensorFlow 是一个开源机器学习框架,提供了一套丰富的工具和库,方便有效地实现各种深度学习模型。通过使用 TensorFlow,我们可以更方便地搭建、训练和测试 DNCNN 模型,以实现图像去噪的目标。 总而言之,dncnn-denoise-gaussian-noise-tensorflow-master 是一个使用 TensorFlow 构建的神经网络模型,旨在通过训练去除图像中的高斯噪声,并恢复出清晰的图像。它通过密集卷积神经网络结构和残差学习来实现这一目标,并利用 TensorFlow 提供的功能来简化模型的构建和训练过程。 ### 回答2: "DnCNN-denoise-gaussian-noise-tensorflow-master"是一个基于TensorFlow开发的用于去除高斯噪声的深度神经网络模型。DnCNN代表深度卷积神经网络去噪,它是一种用于图像去噪的先进方法。高斯噪声是一种常见的图像噪声类型,它以正态分布为基础生成,对于图像质量和清晰度有很大影响。 这个项目的目标是利用DnCNN模型,使用TensorFlow实现去除高斯噪声的功能。TensorFlow是一个开源的机器学习框架,提供了丰富的工具和函数库,用于构建和训练深度神经网络模型。通过使用TensorFlow,我们可以高效地创建、训练和优化深度学习模型。 该项目的"master"表示主分支,通常是最新、最稳定的版本。这意味着"DnCNN-denoise-gaussian-noise-tensorflow-master"是基于最新版本的DnCNN网络,并且已经在TensorFlow上进行了实现。 通过使用这个项目,我们可以将含有高斯噪声的图像输入到DnCNN模型中,并得到去噪后的输出图像。这个模型能够学习和理解高斯噪声的特征,并将其从图像中去除,以恢复图像的真实细节和清晰度。这对于许多计算机视觉任务,如人脸识别、图像增强和图像分析等都是非常有用的。 总之,"DnCNN-denoise-gaussian-noise-tensorflow-master"是一个基于TensorFlow实现的高斯噪声去除深度学习模型,它可以帮助我们有效地去除图像中的高斯噪声,提高图像质量和清晰度。 ### 回答3: dncnn-denoise-gaussian-noise-tensorflow-master 是一个基于TensorFlow框架实现的深度卷积神经网络(DnCNN)用于去噪高斯噪声的开源项目。 去噪是数字图像处理中的一个重要任务,因为图像数据常常受到各种噪声的干扰,其中高斯噪声是一种常见的噪声类型。dncnn-denoise-gaussian-noise-tensorflow-master提供了一种通过深度学习方法去除高斯噪声的解决方案。 该项目的实现基于深度卷积神经网络(DnCNN)。深度卷积神经网络是一种具有多层卷积和池化层的神经网络结构,通过学习数据的高级特征来实现图像去噪。DnCNN主要由卷积层、批归一化层和ReLU激活函数组成,通过多层卷积操作来逐渐去噪图像。 在dncnn-denoise-gaussian-noise-tensorflow-master项目中,程序提供了对高斯噪声图像进行训练和测试的功能。用户可以使用该项目来训练自己的去噪模型,也可以使用已经训练好的模型来去噪自己的图像数据。项目还提供了一些辅助功能,如数据加载和保存、网络模型的定义和训练等。 使用dncnn-denoise-gaussian-noise-tensorflow-master可以帮助用户实现高效的图像去噪处理,降低图像中的噪声干扰,提升图像的质量。该项目的开源特性使得用户可以根据自己的需求进行修改和扩展,也可以从中学习深度学习和图像去噪的相关知识和技术。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hongjianMa

感恩社区,回馈社区

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值