论文链接:
https://arxiv.org/abs/2310.15950
论文代码:
https://github.com/HKUDS/RLMRec
实验室主页:
https://sites.google.com/view/chaoh/group-join-us?authuser=0
TLDR
本文从互信息最大化的理论角度出发,通过引入文本信号以优化推荐算法的表征学习中存在的噪音,并且设计一套高效且无偏的基于大语言模型的用户/商品画像生成流程以提供优质的文本信号,最终通过基于对比式学习和生成式学习两套范式实现了互信息最大化的目标,在不同的任务场景下体现出了优势。
从有噪的表征学习说起
推荐系统已经成为互联网的一种基本服务,其通过学习用户历史交互行为中的偏好,向用户推荐个性化的商品。目前,基于图神经网络(Graph Neural Networks)的协同过滤算法在推荐领域体现出了巨大的优势。
一般来说,在协同过滤(Collaborative Filtering, CF)的场景下,我们拥有用户集合 U 和商品集合 I,以及他们之间的交互,那么如果我们将每一个用户和商品分别视为节点,并且将他们之间的交互记录视为边,就能够构造一个用户商品交互图(User-Item Interaction Graph)。
接着基于图神经网络的层层信息传递和聚合,我们可以最终得到每一个用户和商品节点基于图结构所学习到的表征,由于该表征包含了协同过滤的信息,因此我们可以称之为协同过滤特征表示(CF-side Representation)。
然而不可避免地,在用户和商品的交互图中存在着许多噪音(例如用户的误点击行为,用户购买过某商品之后发现并不喜欢等等情况),因此图上的某些边(交互)并不一定是正向的,即不能体现用户真正的购物偏好。
但是在模型优化的过程中,这些交互边任然会被视为是正样本,通过 BPR 损失对模型的参数进行优化,从而相关有噪的信息就被嵌入到图网络模型所学习到的表征中,因此最终变成了有噪的表征学习过程。
引入文本信号从理论上优化表征
如果没有额外的信息,仅仅依靠于用户-商品的交互图,想要挖掘出这些噪音边并且去掉是比较困难的,因此,我们考虑引入别的信号,即文本信号。
在这里我们首先对协同过滤特征表示