现有方法的不足:
现有的方法大多侧重于挖掘会话中由项目ID暴露的有限的项目共现模式,而忽略了吸引用户参与某些项目的是页面上显示的丰富的多模态信息。
目标:
通过对多模态信息进行整体建模来改进基于会话的推荐
本文创新点
从多模态信息中揭示用户意图主要有三个问题:
- 如何从具有不同噪声的异构描述信息中提取相关语义?
- 如何将这些异构的描述性信息融合起来,综合推断用户兴趣?
- 如何处理数值信息对用户行为的概率影响?
为了解决上述问题,我们提出了一种新的基于多模态会话的推荐方法(MMSBR),该方法在统一的框架下对描述性和数值信息进行建模。具体而言,设计了一种伪情态对比学习来增强描述性信息的表征学习。在此基础上,提出了一种融合异构描述信息的分层枢轴转换器。此外,我们用高斯分布表示数值信息,并设计了Wasserstein自关注来处理概率影响模式。
多模态信息分类:
- 描述性信息(如物品图片和描述文字):描述性信息通过图像和文本直观地描述物品的特性,如风格、颜色和材料。
- 数字信息(如价格):通过实际数字传达物品的抽象价值
一、Introduction
传统的推荐系统依赖于用户的身份信息、个人资料和长期行为来预测他们的偏好。然而,在现实世界的场景中,由于隐私政策或用户未登录,用户身份信息通常不可用,推荐系统只能使用匿名用户的短期行为序列(即会话)。在这种情况下,传统的推荐方法不再适用或满意。因此,提出了基于会话的推荐(SBR)来预测匿名用户在短会话中感兴趣的下一个项目。
SBR中利用多模态信息面临以下挑战:
- 描述性信息的表示。在SBR场景下,图像和文本具有不同的噪声。通常,物品图像不仅包含待售物品,如衣服,还可能包含额外的内容,如衣服的配饰。同样,物品描述文本通常包括冗余词汇,如夸张的陈述,以吸引用户注意。这些噪声的存在增加了从图像和文本中提取物品语义的难度,从而阻碍了精确地学习用户偏好。因此,第一个挑战是如何从具有不同噪声的异质描述性信息中获取相关语义。
- 描述性信息的融合。对于一个物品,图像和文本都被用来描述其特征。显然,它们之间存在共享信息。同时,它们还各自承担不同的目的,专注于展示物品的不同属性。具体来说,图像比文本更直观地描述物品的颜色和风格;而文本可以清晰地表达材料,例如丝绸或棉,而这些从图像中很难理解。因此,图像和文本相互补充,共同呈现一个物品。相应地,为了全面推断用户兴趣,另一个挑战是如何融合这些异质的描述性信息。
- 数值信息建模。用户的口味通常由描述性信息决定,比如喜欢圆领T恤的用户可能不会点击V领的推荐。与此相反,数值信息如价格则以概率方式影响用户行为。更确切地说,只要物品价格在用户可接受范围内,价格稍高或稍低并不重要。因此,最后一个挑战是如何处理数值信息对用户行为的概率性影响。
多模态基于会话的推荐系统(MMSBR),确定性建模------->描述性信息;概率性建模------>数值信息。
确定性建模:提出了伪模态对比学习方法来改善描述性信息的表示。这种方法通过推近语义上相似的成对数据(正对),同时拉远不相似的(负对),从而增强信息表示。由于不同模态的物品内容相似,可以将它们视为正对来解决噪声问题。但由于不同模态之间存在语义差距,因此提出使用一种模态生成另一种模态的伪信息(伪模态)来解决这个问题。实际模态和伪模态在相同的语义空间中对齐后,用于对比学习中的正对,以减轻图像和文本中的噪声。
此外,在确定性建模中,引入了层次化枢纽变换器来融合描述性信息。借助变换器结构处理序列中复杂关系的能力,这种架构被证明有效地融合多模态信号。在此基础上,进一步创建了一个枢纽,作为每个变换器层中的信息混合器,来管理异质信息的融合。枢纽在变换器操作下分层提取和整合来自图像和文本的有用信息,被视为描述性信息的综合嵌入。
概率性建模:首先将物品价格表示为高斯分布嵌入,使MMSBR能够感知物品价格的范围属性。然后,开发了Wasserstein自注意力来处理价格分布嵌入,获取用户可接受的价格范围。利用Wasserstein距离区分高斯分布之间的差异,该距离用于Wasserstein自注意力中,以确定价格分布嵌入之间的相关性。
最后,提出的MMSBR通过评估页面上显示的全部多模态信息,为用户提供个性化服务。
二、Method
MMSBR主要由以下相互依赖的组件组成:
- 用确定性建模来处理描述性信息,即项目图像和描述文本,以捕获用户的确定性品味;
- 利用数值信息(即项目价格)复制概率建模,对用户可接受的价格范围进行建模;
- 预测根据页面上显示的整个多模态信息为个体提供个性化服务。
2.1确定性建模
-
伪模态对比学习来细化描述性信息表示。
-
分层枢轴变换器融合异构描述性信息。
-
vanilla attention 捕捉用户确定性品味。
2.1.1伪模态对比学习
项目图像和文本中存在噪声,导致项目语义提取不准确。对比学习可以通过最大化语义相似的对之间的一致性来解决这个问题。然而,来自项目的图像和文本嵌入位于不同的语义空间中。因此,如果我们直接将原始语义视为正对,它将破坏原始语义。为了获得有效的对比信号,我们采用数据生成技术生成伪模态,该模态与对应的实际模态在同一空间中对齐。然后,利用生成的对比信号,利用对比学习对图像和文本嵌入进行细化。
伪模态生成:
DALL·E是一种根据短文本生成生动图像的新兴技术。对于一段文本 ,我们将其输入 DALL·E 以生成伪图像 xpseimg i。然后我们使用 imgEmb(·) 通过以下方式获得伪图像嵌入epseimg i ∈ Rd,
对于图像 ximg i ,我们通过图像分类获得其伪文本。具体来说,我们将 ximg i 输入到 GoogLeNet 中,以 1,000 个类别执行图像分类,其中每个类别标签表示短文本。然后将预测的 top-l 类别(即一组短文本)连接为伪文本 xpsetxt i。之后,我们通过,得到伪文本嵌入epsetxt i∈Rd,
对比学习:实际模态和相应的伪模态的嵌入,即 eimg i 到 epseimg i (and etxt ito eepsetxt i ),描述相同的项并定位在同一个语义空间中。当然,我们将它们视为对比学习中的正对,通过,
其中 sim(·) 是余弦相似度。第一项,对于项目图像 (eimg i ),我们将其伪图像嵌入 (epseimg i ) 将相似的语义视为正数,而将包含不同内容的其他项目的伪图像嵌入 (epseimg k ) 视为负数。通过将正数推近,同时将负数拉开,MMSBR 可以增强图像嵌入。第二项对于改进文本嵌入是相同的。有了关于相应模式的丰富知识,使用的数据生成模型不仅对齐正对相同的空间,但也使伪模态包含实际模态的核心语义。如图2所示,伪图像保留了核心内容布料,过滤掉了多余的裤子和鞋子。显然,这有利于伪模态对比学习来缓解不同模态中存在的噪声信息。
2.1.2分层轴枢transformer
如前所述,我们需要融合图像和文本特征以获得全面的用户兴趣理解。Transformer 结构在合并多模态信号方面显示出巨大潜力,因为它可以有效地挖掘序列中标记之间的复杂关系 [17]、[19]。受此启发,我们首先应用几个不同的 MLP 将图像/文本嵌入转换为不同的项目特征嵌入,并相应地为图像/文本制定特征序列。基于特征序列,进一步提出了一种分层枢轴变换器来有效地进行描述性信息融合。
图片/文本特征生成
我们应用 MLP 来获得特征嵌入,因为许多研究已经证明了 MLP 在捕获输入数据语义方面的有效性 。形式上,项目图像/文本特征序列 (Zimg /Ztxt) 通过以下方式制定:
其中 MLPimg k 和 MLPtxt k 表示具有两个隐藏层的前馈神经网络,C 是用于提取图像/文本特征的 MLP 的数量。请注意,MLPimg k (eimg i ) 和 MLPtxt k (etxt i ) ∈ Rd 分别是图像和文本的某些特征嵌入。
分层枢轴变压器
vanilla Transformer 层主要包含三个模块:多头自注意力 (MSA)、层归一化 (LN) 和全连接层 (FCL)。我们可以用输入序列 Fl = [f in1, f in2, 定义一个变换器层。.., f 在 k ] 和输出序列 Fl+1 =[f out1, f out2, ..., f out k ] 作为 Fl+1 = Trans(Fl) 通过,
在此基础上,我们进一步创建了一个枢轴 P = [p1,..., pT ] 在每个变换器层中控制多模态信息的融合,其中 pi ∈ Rd 是一个可训练的令牌嵌入,用于协助信息传输。分层枢轴转换器通过以下方式集成图像 (Zimg ) 和文本 (Ztxt) 的信息:
其中 P0 = P(随机初始化),Z0img = Zimg 和 Z0txt= Ztxt。在每个转换器层中,枢轴提取和融合来自不同模态的重要信息。以Eq.(13)为例,枢轴吸收文本信息,将图像信息传输到文本模态。为了充分融合描述性信息,我们堆叠方程式定义的分层枢轴转换器。 (11)-(14) R 次。最后,MLP传递的最后一层枢轴用于将项目xi的描述性信息表示为Ei∈Rd,通过,
其中 [; ] 表示连接操作,MLP 是一个具有两个隐藏层的前馈神经网络。
2.1.3Vanilla Attention
对于项目xi,我们获得了涉及图像和文本的描述性信息的嵌入ei。显然,在她接触过的物品中隐藏着一种用户确定的品味。因此,基于具有描述性信息Ed = [e1, e2,…em]的项目序列,我们可以应用中使用的Vanilla Attention,通过
其中A1, A2∈Rd×d, b为可学习的参数,uT∈Rd为可训练的向量,用于确定会话中项目的重要性 e-