自监督学习推荐系统综述: 150篇自监督推荐系统文献概述四大类方法(含开源算法库SELFRec)...

省时查报告-专业、及时、全面的行研报告库

省时查方案-专业、及时、全面的营销策划方案库

快手推荐系统精排模型实践

淘宝首页信息流推荐系统实践

重排序在快手推荐系统中的实践

某短视频APP推荐算法及策略最详细拆解

机器学习在B站推荐系统中的应用实践

小红书推荐系统中台应用实践

微信视频号实时推荐技术架构分享

推荐系统的变与不变:冷启动、召回排序等

对比学习在快手推荐系统中的应用实践

知识图谱在美团推荐场景中的应用实践

今天跟大家分享一篇来自于昆士兰大学总结的基于自监督学习的推荐系统综述,该文章总结了150篇自监督推荐系统相关的文献。具体的,该文根据统一的范式概括了四大类方法,并提炼了三种训练范式。另外,还总结了三类数据的经典数据增强技术。最后该文提出了一个全新的自监督推荐系统开源库SELFREC,该库实现了超10种经典的自监督学习推荐算法。作者希望通过总结的文章为该领域的学者与实践人员提供统一的视角与整体的学习框架。

40278a212cd9a9e95cdd400f32ab84d6.png

论文:https://arxiv.org/abs/2203.15876

代码:https://github.com/Coder-Yu/SELFRec

(太长不看版)本文的最大贡献是提出了一种统一的分类方式将当前基于自监督学习的推荐系统进行分类,并提出了一个易于扩展与使用的开源工具包。具体的贡献如下:

  1. 首先对基于自监督学习方法的推荐系统(SSR)进行全面的综述,力求尽可能多的调研相关文献,该文是该领域方向的首篇综述;

  2. 该文提出了针对于SSR的专属定义,并且提出了一个综合的分类视角,即将当前的SSR方法归纳为了对比式方法、生成式方法、预测式方法与混合方法。针对每一类方法,该文详细的阐述了其概念、公式、相关方法以及优缺点分析。

  3. 本文提出了一个开源工具包SELFREC,其包括了多个基准数据集以及评价指标,另外还实现了超10种SSR算法。

  4. 最后,本文介绍了该方向的局限性,并总结了剩余的挑战与未来研究方向。

另外,关于自监督学习推荐系统总结文章可阅读RSPapers | 基于自监督学习推荐系统论文合集。关于推荐系统综述可参考入门推荐系统,这25篇综述文章足够了

对于SSR的定义

自监督学习的问世为推荐系统领域提供了一种缓解数据稀疏问题的新视角,通过总结在推荐系统领域运用自监督学习技术的方式,该文总结了关于SSR的基本特征:

  1. 通过半自动化的方式获取更多的监督信号。

  2. 通过一个辅助任务利用增强的数据来微调推荐系统。

  3. 辅助任务(Pretext task)协助推荐系统任务(Primary task)来完成更高性能的推荐模型。

其中,1确定了SSR的基本范围,2确定了SSR区别于推荐系统其他领域的问题设置,3阐述了与推荐主任务与辅助任务的关系。

对于SSR的分类

本文根据辅助任务(pretext task)的特征,将当前SSR任务分为了对比方法、生成方法、预测方法与混合方法。

2c218c390fd97fa8c2b1ad9c398713cb.png

其中,对比式方法主要思想是通过数据增强任务来拉进两个相近实例的表示,拉远两个不相近实例的距离。

e4301fdacb1f56550780f474b392e405.png

其中,生成式方法主要思想是利用数据当中的一部分来预测另一部分,其是受自然语言处理领域带掩码的语言模型的启发。

23a6af56bc5ef4f31fa27241fd12c042.png

其中,预测式方法与生成式方法类似,其都拥有预测任务。主要思想是利用半监督学习技术来预测富有信息量的新样本或者伪标签。

90ac5b8b9fe92536b789b85d19074035.png

其中,混合式方法主要思想是集成上述提及的任务一种或者多种辅助任务,并利用不同的权重将其整合起来。

b6c04436bc1dbe657b5a4e3679c7567d.png

对于SSR的训练方式

通过推荐主任务与辅助任务的整合方式,其可以分为三种类型的训练范式,即联合训练模式,预训练与微调模式与综合训练模式。

其中,联合训练模式主要框架是通过一个共享的编码器来同时优化主任务与辅助任务。

a5ff7dc6651c9ffa5bc1708dabcaceb3.png

其中,预训练训练模式主要框架是首先在辅助任务上预训练,然后在推荐主任务上进行微调操作。

d1827ea485f0ad97c2b9dd351423a788.png

其中,综合训练模式相对较少,主要框架是通过将主任务与辅助任务进行对齐进而利用整体的损失函数进行优化。

230e108efba34a5c2949c1e009bf004f.png

本文根据辅助任务与训练模式分别进行统计,发现生成式SSR与对比式SSR占比较高;联合训练模式的SSR方法与预训练模式的SSR方法是其主要使用的训练框架。

0738351aff2672206740c005d86ee1ed.png

对于数据增强的总结

本文根据数据结构,即序列数据、图数据与特征数据将数据增强方法进行总结,将基于序列数据的数据增强方法分为了Item Mask,Item Cropping,Item Reordering,Item Substitution与Item Insertion。将基于图数据的数据增强方法分为了Edge/Node Dropout,Graph sion与Subgraph ling。将基于特征数据的增强方法分为了Feature Dropout,Feature Shuffing,Feature Clustering与Feature Mixing。

61091d78afb8db8a5e089c22697ab8c4.png

对比式SSR方法总结

灵活的数据增强技术与多种多样的辅助任务可以催生出许多SSR方法。本文根据自监督信号的来源分为了Structure-level contrast,Feature-level contrast与Model-level contrast方法,下表根据场景、数据增强方法、对比类型等条件列举了多种SSR方法。

54ed4e17b891b98689ad95ca07971706.png

生成式SSR方法总结

生成式SSR方法的思想是通过对原始输入进行重构,将数据中的内在相关性进行编码,从而使推荐任务受益。在本节中,我们主要关注基于MLM的生成SSR方法,这是当前的趋势之一。根据重构目标,我们将生成式SSR方法分为两类:结构生成和特征生成。下表根据场景、数据增强方法、训练模式等条件列举了多种SSR方法。

53365987b2c14185fb3f21c382eaa2a3.png

预测式SSR方法总结

与破坏原始数据以获得自监督的生成式SSR方法不同,预测式SSR方法是从完整的原始数据中获得的自我生成的监督信号进行处理。根据预测任务预测的内容,我们将预测方法分为两个分支:样本预测和伪标签预测。下表根据场景、数据增强方法、训练模式等条件列举了多种SSR方法。

8c4e34bccebe502be890ac9453f41267.png

混合式SSR方法总结

混合式方法将多个辅助任务组合在一起,充分利用不同类型的监督信号。我们根据他们的辅助任务功能将调研的混合方法分为两组,包括合作式的和独立式的。下表根据场景、数据增强方法、训练模式等条件列举了多种SSR方法。

1a5908dfbfa2a63ada64f92411963ae1.png

关于开源算法库SELFREC

SSR方法正处于一个繁荣时期,越来越多的SSR模型被开发出来,并声称自己是最先进的。尽管数量不断增加,但我们注意到在收集的论文中,不同SSR模型之间的实际比较往往是不公平的。另外,这些方法的一些代码实现效率很低,可读性也很差。尽管已经有一些开源存储库实现了少量的SSR模型,并提供了统一的框架和标准的评估协议,其设计覆盖了各种推荐模型,其体系结构对实现SSR模型并不有效。为了促进SSR模型的开发和标准化,我们发布了一个开源库- SELFRec,它继承了RecBole和QRec的优点。主要包括快速运行、易于扩展、高模块化。

db67b3b22ed6e963c5679e6ffd174fa5.png

最后,本文提出了SSR方向一些潜在的挑战与未来研究方向。比如,对于数据增强选择的理论证明、基于自监督推荐系统的可解释性、基于预训练推荐模型的攻击与防御、移动边缘设备上的自监督推荐模型等以及通用预训练方法等。

 
 
 
 

「 更多干货,更多收获 」

6470e1038acce39aaf37e58197ee0ac2.gif

 
 

推荐系统工程师技能树

【免费下载】2022年2月份热门报告盘点

美团大脑系列之:商品知识图谱的构建及应用

【干货】2021社群运营策划方案.pptx

大数据驱动的因果建模在滴滴的应用实践

联邦学习在腾讯微视广告投放中的实践如何搭建一个好的指标体系?如何打造标准化的数据治理评估体系?

【干货】小米用户画像实践.pdf(附下载链接)

推荐系统解构.pdf(附下载链接)

短视频爆粉表现指南手册.pdf(附下载链接)

推荐系统架构与算法流程详解如何搭建一套个性化推荐系统?某视频APP推荐策略详细拆解(万字长文)

关注我们

智能推荐

个性化推荐技术与产品社区

长按并识别关注

57dbef48f97b9406908fd1e3051f2e03.png

一个「在看」,一段时光👇

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值