©PaperWeekly 原创 · 作者 | 王锦鹏
单位 | 清华大学深圳国际研究生院
研究方向 | 多模态检索、推荐系统
序列推荐是一种主流的推荐范式,目的是从用户的历史行为中推测用户偏好,并为之推荐感兴趣的物品。现有的大部分模型都是基于 ID 和类目等信息做推荐,在可扩展性和迁移性方面存在劣势。近期的一些工作(如 UniSRec [1]、VQ-Rec [2]、RecFormer [3] 等)提出使用文本内容学习通用的物品和序列表征,打开了结合内容分析的序列推荐的新研究点。
虽然文本信息能部分反映物品信息以及用户偏好,但推荐场景的需求经常是多模态的,比如在商品和短视频推荐中,图文信息都会影响用户的行为(如浏览、购买)。多模态信息是否有助于序列推荐?怎么利用多模态信息挖掘个性化偏好?这些目前还都是待探究的问题。
在下面这篇论文中,来自清华和华为的研究者针对这些问题提出了兴趣感知的多模态序列推荐预训练方法,为多模态序列推荐任务提供了一种通用的解决方案。
论文题目:
MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation
收录会议:
ACM MM 2023
论文链接:
https://arxiv.org/abs/2308.11175
代码链接:
https://github.com/gimpong/MM23-MISSRec
背景
序列推荐是一个自回归的预测任务:根据用户的历史行为(如浏览)序列,预测用户下一个行为,如可能浏览的物品。典型的序列推荐模型(如 SASRec [4]、BERT4Rec [5] 等)大部分基于 ID 和类目等信息学习物品和用户行为序列的表征,存在以下问题:
1. 少见物品的表征学习欠拟合,具体表现是在长尾物品上推荐效果差;
2. 可扩展性较差,加入新的物品后,存在冷启动问题;
3. 在一个领域上训练完成的模型,难以迁移到其他领域。更普遍地,当 ID 集合完全不相交时,各个领域就形成一座座“数据孤岛”——即便模式相似,知识也难以迁移。
为了解决上述问题,我们的目光不再局限于依据 ID 信息来表征物品和序列,而是从物品多模态内容入手建模个性化。我们的直觉是,用户的决策是一个综合了多模态信息处理的过程。例如,对于商品的图文介绍,贴合需求的标题描述和精美的图片都可能吸引用户的关注。因此,我们认为多模态信息的有助于准确地描述物品和用户偏好,并且该信息基本不受热度(频次)影响。
此外,使用多模态信息的另一优势是跨场景的通用性。只要能获取到物品的描述文本、图片等元数据,我们就可以统一多场景的训练和推荐服务。如图 1 所示,我们期望借鉴 CV 和 NLP 的成功经验,通过预训练技术发掘蕴含在多模态信息中的领域通用的个性化模式,并通过微调实现推荐知识的高效迁移,达到多领域“共同提升”的效果。
▲ 图1:从单领域训练转变为多领域数据联合训练,每个圆圈