论文分析:Disentangling ID and Modality Effects for Session-based Recommendation

本文深入解析SIGIR2024论文,提出一种会话推荐模型,通过解耦商品ID和模态特征,增强推荐准确性和解释性。模型利用TransformerEncoder处理特征,设计特殊损失函数区分交互原因。
摘要由CSDN通过智能技术生成

本文将剥去故事的外壳,精解论文《Disentangling ID and Modality Effects for Session-based Recommendation》(SIGIR, 2024),笔者水平有限,如有疏漏敬请指正。移步博客页面获得更佳阅读体验。[arxiv]

1. 研究动机

会话推荐中对用户行为的建模主要包含两方面:商品共现信息和商品模态信息。然而现有方法将这两种特征缠绕在一起,无论是显式对齐还是直接相加,强行使得二者相近势必会弱化模态本身的语义信息,甚至引入噪声,对推荐准确率和解释性都有很大影响。因此该文章针对会话推荐,设计了商品ID特征和模态特征的解耦机制。
在这里插入图片描述

2. 核心创新点

  • 模型使用两个Transformer Encoder分别得到ID和模态特征,设计了损失函数 L p r o L_{pro} Lpro 使得两特征不要太接近。

请添加图片描述

  • 由商品转移关系判断促使用户交互的是共现因素还是模态因素,使用对应的损失函数 L c t L_{ct} Lct 优化参数。

请添加图片描述

3. 模型结构

请添加图片描述

3.1 构建共现矩阵

请添加图片描述

基于所有会话的转移关系,计数转移次数,构建有向带权图,w[i, j]表示用户“与i商品交互后与j交互”这样的二元关系出现次数。最后行归一化使得每行元素之和为1,得到图示的共现矩阵A。

3.2 ID特征

可学习embedding E ^ i d \hat{E}^{id} E^id ,通过共现矩阵卷积得到商品最终ID特征 E i d E^{id} Eid

E i d = ( A + I ) E ^ i d E^{id}=(A+I)\hat{E}^{id} Eid=(A+I)E^id

将会话序列ID embedding通过Transformer Encoder,得到整个会话的ID表征 s i d s^{id} sid

s i d = S A i d ( [ e 1 i d , e 2 i d , . . . , e m i d ] ) s^{id}=SA_{id}([e_{1}^{id},e_{2}^{id},...,e_{m}^{id}]) sid=SAid([e1id,e2id,...,emid])

3.3 模态特征

图片经过GoogLeNet得到的top-2分类,与文本一同送入BERT,得到的embedding序列取平均,作为该商品的模态联合表征(结合了两个模态)。同样通过Transformer Encoder,得到整个会话的模态表征 s m o s^{mo} smo

s m o = S A m o ( [ e 1 m o , e 2 m o , . . . , e m m o ] ) s^{mo}=SA_{mo}([e_{1}^{mo},e_{2}^{mo},...,e_{m}^{mo}]) smo=SAmo([e1mo,e2mo,...,emmo])

3.4 预测得分

y i y_{i} yi 解耦为ID和模态两部分,分别用会话表征匹配item embedding,越相近该项得分越高。

y i = s i d e i i d + s m o e i m o y_{i}=s^{id}e_{i}^{id}+s^{mo}e_{i}^{mo} yi=sideiid+smoeimo

请添加图片描述

3.5 解耦特征损失

为解耦ID和模态特征,设计了 L p r o L_{pro} Lpro ,使得经Transformer得到的特征在避免原有语义信息减损的情况下,降低两特征的交缠。(不过这里的 W ∗ W_{*} W 权重矩阵的设计感觉有些复杂)

请添加图片描述

请添加图片描述

3.6 解耦推理损失

主要思想是:如果用户是因为共现而交互,那么损失函数优化会话的共现特征表示;否则用户是因为模态而交互,则要优化模态特征表示。

请添加图片描述

其中 N s N_{s} Ns 表示s会话中所有item在共现图中所有邻居item的集合。

3.7 其他损失

我们希望共现较多的item embedding相近,反之远离。因此基于共现矩阵构建了top-l正样本集合 { e 1 i d + , e 2 i d + , . . . , e l i d + } \{e_{1}^{id+},e_{2}^{id+},...,e_{l}^{id+}\} {e1id+,e2id+,...,elid+} 和无交互的负样本集合 { e 1 i d − , e 2 i d − , . . . , e l i d − } \{e_{1}^{id-},e_{2}^{id-},...,e_{l}^{id-}\} {e1id,e2id,...,elid}

请添加图片描述

其中 e ‾ i + = 1 l ∑ k = 1 l e k i d + \overline{e}_{i}^{+}=\frac{1}{l}\sum_{k=1}^{l}e_{k}^{id+} ei+=l1k=1lekid+ 。该项损失强调了ID特征中的共现信息。

4. 漫谈

该模型能够增强一些会话推荐的解释性,主要原因如3.6,可以区分用户交互源自共现图还是模态提供的信息。

请添加图片描述

  • 13
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值