【Google Paper】对比学习用于解决推荐系统长尾问题

这篇博客主要分享一下Google的《Self-supervised Learning for Large-scale Item Recommendations》如何采用对比学习解决推荐长尾问题 。论文地址:https://arxiv.org/abs/2007.12865

先来个定义

  • 长尾效应:20%的热门item占据了80%的曝光量,剩下80%的小众、长尾item得不到多少曝光机会,自然在训练样本中也是少数、弱势群体。
    一般的推荐模型是迎合多数人群的,长尾的item曝光机会少,就导致小众兴趣难以满足,这对一个成熟的生态系统来说,不利于用户增长。
  • 场景举例:有些原来不受到重视的销量小但种类多的商品,由于总量巨大,累积起来的总收益超过了主流商品。这种情况下,算法挖掘小众兴趣的能力显得尤为重要。

对比学习

  • 对于样本不均衡的问题,一般首要想到的办法是做数据增强(data agument), 对比学习的核心就是采用数据增强构建正负变体,倾向于无监督学习,学习一个比较好的特征提取器。推荐系统中引入对比学习用于推荐debias,解决“少数人群+冷门物料,标注样本少”的问题,从逻辑上看是可行的。
  • 《Self-supervised Learning for Large-scale Item Recommendations》, 就是利用对比学习辅助训练双塔召回模型,目的是让item tower对冷门、小众item也能够学习出高质量的embedding,从而改善内容生态。从公式上看,可以理解为将对比学习的loss作为主任务loss的一个正则项。
    来自论文https://arxiv.org/abs/2007.12865

论文解读

小Q认为论文中有两个核心的技术点,一个在对比学习部分,另一个在联合训练部分。

数据增强

在对比学习数据增强部分,论文提出对于item特征的数据增强分为两个步骤:Masking和Dropout,其中masking是采用默认embedding随机掩盖一些输入特征,dropout就是简单的随机丢失一些输入特征。

Random Feature Masking(RFM)

文中定义了一个baseline Random Feature Masking(RFM) ,采用互补masking模式,即将特征集拆分为两个互斥特征集,构建为两个扩展变体。具体来说,将特征集随机分成两个不相交的子集。大致结构如下:
CL framework 来自论文https://arxiv.org/abs/2007.12865

某个item xi, 随机抽取一半的特征h,得到变体yi,再经过Encoder H,得到向量zi;保留剩下的另一半特征g,得到变体yi’,再经过Encoder G,得到向量zi’。
来自同一个item xi 的两种变体对应的embedding zi和zi’,两者之间的相似度应该越大越好。
按照同样的作法,另一个item xj,用一半特征h得到变体,再经过Encoder H得到yj;用另一半特征g,得到变体,再经过Encoder G得到yj’。
来自不同item的变体对应的embedding,两者之间的相似度应该越低越好。

Correlated Feature Masking (CFM)

论文基于信息论中的互信息,提出了Correlated Feature Masking (CFM)方法,这个方法每个batch进行训练时,先会随机选取一个特征 f_seed , 然后选择topn(n 为item的特征总数的一半) 构建一个特征集做为变体。

为什么采用CFM

此处楼主小Q主要想讨论一下的是:为什么要采用互补masking模式构建对比学习的变体呢,为什么采用互信息高的特征集会比随机masking效果好呢。
在论文中有这么一段描述:

For instance, the SSL contrastive learning task may exploit the shortcut of highly correlated features 
between the two augmented examples, making the SSL task too easy.

从字面意思看,是说随机masking 可能有一些高度相关的feature 分到两个变体中, CL train的就太easy了,所以要加大一下难度的样子。
hmmm,查了一些资料,没找到更详细的解析了,大致意思是由于物品的不同特征可能存在着一些关联性,随机masking可能会使得模型在对比学习的过程中,通过关联度较高的特征来“猜”出被mask的特征,使得任务训练变得简单。
这里小Q尝试举个例子,来强行解释一下吧,假设:item是个商品,它有品类,品牌,产品系列,价格 等特征,假设“品牌“ 被拆分到变体h中,”产品系列“被拆分到变体g中,看上去两个变体都是不同的,但是两个特征包含的隐信息其实没太大区别,最终两个变体的embedding太容易相似,就不到训练模型的目的。至于为什么要采用互补masking模式,大致也是为了保证变体的差异性。
好,小Q只能忽悠到这个程度了,大家有别的想法欢迎在评论区留言。

联合训练

做完对比学习,下一个步骤就是联合训练了 ,先上个论文中的模型图:
来自论文https://arxiv.org/abs/2007.12865
从上图可以看出,整个item tower是被user-item双塔召回的主任务、对比学习辅助任务中的encoder H和G,这三者所共享的。
论文的第二个重点来了,“We sample items uniformly from the corpus for Lself " ,论文中明确表示参与对比学习的样本,和参与主任务的样本,来自不同的样本空间。
主任务,需要拟合用户与item之间的真实互动,还是以已经曝光过的user/item为主。对比学习部分,是为了消除推荐长尾问题,主要是要关注曝光率低的item。

参考资料:
https://zhuanlan.zhihu.com/p/435903339
https://zhuanlan.zhihu.com/p/141141365?ivk_sa=1024320u
https://blog.csdn.net/m0_37924639/article/details/121078066

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
多模态深度学习是一种融合多种感官信息的学习方法,它能够同时处理视觉、听觉和语言等不同类型的数据。多模态深度学习paper主要是研究多模态深度学习的原理、方法、框架和应用。 在多模态深度学习paper中,一般会对多模态数据的表示、融合和学习进行研究。首先,它会介绍多模态数据的表示方式,比如如何将图像、音频和文本等数据表示成机器可以理解的形式,常见的方法包括使用卷积神经网络(CNN)和循环神经网络(RNN)等。 其次,多模态深度学习paper会探讨如何将不同类型的数据进行融合。融合可以是级联式的,即将不同模态的网络分别训练,然后将它们的结果融合在一起进行决策。也可以是并行式的,即同时训练多个模态的网络,然后将它们的特征进行融合。此外,一些paper还会提出一些专门的融合算法,比如多模态融合网络和交互式融合网络。 最后,多模态深度学习paper也会讨论多模态深度学习在不同应用领域的具体应用。比如在图像识别中,多模态深度学习可以同时利用图像和文本信息来提高识别精度;在语音识别中,多模态深度学习可以同时利用语音和文本信息来提高识别准确率。 总之,多模态深度学习paper是对多模态深度学习理论和应用的研究,它为我们理解和应用多模态深度学习提供了重要的参考和指导。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值