Self-supervised Learning for Large-scale Item Recommendations (CIKM 2021)

论文名称:基于自监督学习的大规模项目推荐

论文地址:Self-supervised Learning for Large-scale Item Recommendations | Proceedings of the 30th ACM International Conference on Information & Knowledge Management


论文主要内容:

本文主要提出了 SSL 框架,采用对比学习的方式用于推荐中召回模型的训练,使模型取得更好的效果。

动机:

自监督学习再 CV 和 NLP 领域取得很好的效果,是否在推荐系统上也能获取更好的效果。

贡献:

  • 提出 SSL 框架,用于辅助学习;
  • 数据增强;

1. 自监督学习在 CV 和 NLP 领域比较常用,因为做起来较为方便。在 CV 领域,直接对图像进行旋转、裁剪等操作,就能进行数据增强;而在 NLP 领域,通过类似于 Word2vec 的方式,mask 掉句子中某个词语,就能做到 SSL。

2.对于推荐系统来说,其数据会很稀疏,原因包括:

  • 数据分布是高度倾斜度的,长尾分布,这样导致长尾项目不能被充分的学习;
  • 用户反馈的缺失,只有模糊隐含的正反馈,不够细致化。

3.SSL 框架图如下图所示, xi 和 xj 经过两种数据增强的方式(h 和 g),得到 yi、yi'、yj、yj',对应的 emb 是 zi、zi'、zj、zj',优化的方向是 maximize (zi 和 zi' 的相似度),minimize (zi 和 zj 的相似度),minimize (zi 和 zj' 的相似度)。传统上,针对 item 的 数据增强,是采用随机特征掩膜(RFM)。

 4.作者尝试通过数据增强的方法,把同一个商品 xi 变成两种不同的输入 yi 和 yi', 并得到两 emb,借助自监督 Loss,提升模型对商品特征的辨别能力。基于以上正负样本,给出自监督 Loss 为 

\tau 是温度系数,N 是batch size)

5.文中提出的数据增强的方法包括:

  • Dropout:对于 multi-hot 的特征,通过对每一维特征设置 dropout 实现增强
  • Masking:通过设置掩膜,将 item 的部分类目特征设为默认值(即输入为默认的emb),该步骤也可以看作对某个特征做了100% 的 dropout

6.对于 masking的方式,作者希望将特征划分为无重叠的两部分,并为此提出了2种划分方法:

RFM(Random Feature Masking): 随机掩膜,但在输入特征里,本身就可能存在相关度较高的特征,该方法划分出的2个输入,特征见可能相关性较大,导致自监督任务太简单,对模型没有增益

CFM(Correlated Feature Masking):随机选一个种子 feature,计算每个特征与它的互信息,将 TopK 个相似的特征与种子特征融合,作为一个输入,其他特征作为另一个输入;这里,作者的TopK为实际特征维度的一半,公式如下:

 7.双塔模型

模型总的来说可以分成三层结构,分别是输入层、表示层和匹配层。

  • 输入层 :将用户、物品的信息转化为数值特征输入;

  • 表示层 :进一步用神经网络模型学习特征表示;

  • 匹配层 :计算用户特征向量与物品特征向量的相似度。

8.模型结构

 模型架构:带有 SSL 的两塔模型。在 SSL 任务中,我们对项目特征应用特征掩码和 dropout 来学习项目嵌入。整个项目塔(红色)与监督任务共享。

9.多任务学习

作者把 SSL 作为一个辅助损失,编码器(H、G)复用 item 塔的网络;整体 loss 为

 其中,{ qi,xi } 为原双塔模型的训练数据(监督样本),{ xi } 是自监督的训练样本。作者这里构建了两条样本流分别对不同 loss 做训练,自监督 loss 没有复用监督样本得原因是长尾商品在监督样本中出现的频率低,监督样本中商品为长尾分布,自监督 loss 的一个作用就是充分学习长尾商品的表达,因此才用均匀分布从商品库中提取自监督的训练样本 { xi }。

10.实验

数据集:

 Baseline:

  • 双塔DNN;
  • Feature Dropout (FD):在item塔进行feature dropout,没有联合学习;
  • Spread-out Regularization (SO) :没有数据增强,有联合学习;

Result:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
自我监督学习是一种机器学习方法,通过对数据进行合理的预测任务,从中获得有用的表示。与传统的监督学习不同,自我监督学习不需要人工标注的标签来指导训练,而是利用数据自身的信息进行训练。 自我监督学习的基本思想是从未标记的数据中构造有意义的标签,然后将这些标签用作训练数据,以学习有用的特征表示。通过对输入数据进行某种形式的变换或遮挡,可以生成一对相关的样本。其中一个样本称为正样本,另一个则被视为负样本。例如,在图像领域中,可以通过将图像进行旋转、裁剪或遮挡等变换来生成正负样本对。模型的目标是通过学习从一个样本到另一个样本的映射,从而使得正样本对之间的相似度更高,负样本对之间的相似度更低。 自我监督学习在许多任务中都取得了很好的效果。例如,在自然语言处理任务中,可以通过遮挡句子中的某些单词或短语来生成正负样本对,然后通过学习从一个句子到另一个句子的映射来进行训练。在计算机视觉任务中,可以通过图像的旋转、裁剪、遮挡或色彩变换等方式来生成正负样本对。 自我监督学习的优点是不需要人工标注的标签,可以利用大量的未标记数据来进行训练,从而扩大训练数据的规模。此外,自我监督学习还可以通过学习到的特征表示来提高其他任务的性能,如分类、目标检测和语义分割等。 总之,自我监督学习是一种有效的无监督学习方法,通过构造有意义的预测任务,从未标记的数据中学习有用的特征表示。它在各种任务中都有广泛的应用,并具有很高的潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值