【华为推荐论文】如何学习未知样本?基于反事实学习的推荐系统技术研究(附论文下载链接)...

华为诺亚方舟实验室发布了最新研究成果《Improving Ad Click Prediction by Considering Non-displayed Events》,提出了一种基于反事实学习的CTR预估方法(CLCTR),通过考虑未观察样本,解决传统CTR预估算法普遍存在的选择偏置和数据偏置问题,达到提升CTR预估准确性的目的,在公开数据集和真实数据集上实验均相比现有最好算法有较大幅度的提升。该论文已被CIKM2019录用。

关注公众号“智能推荐系统”并回复“1102”,获取论文下载链接。

640?wx_fmt=png

研究背景

CTR预估问题是推荐系统的核心问题,目前主流的建模方式都将之视为二分类问题,即将有用户正向反馈的作为正样本,反之作为负样本,然后发展出各种或简单或复杂的学习算法。这些经典算法均默认存在一个前提假设:观察到的CTR即为真实CTR,所以经典算法的目标是如何更好拟合观察到的数据分布。这直接导致了推荐系统中的马太效应,强者恒强,弱者愈弱。一个物品被推荐给用户,可能是因为它比较流行,而不是因为用户会对它感兴趣,这既影响用户体验,也影响平台收入。

选择偏置 & 未观察样本 & 反事实学习

上面提到的马太效应的根因是推荐系统采集到的用户反馈是存在选择偏置的。现实情况是,推荐系统根据用户的历史信息进行个性化展示,同时用户只会对排名靠前的物品做出反馈,这会使得观察到的用户喜好与真实的用户喜好不符

我们可以设想下,最完美的用于学习推荐模型的样本应该是,将所有候选集机会均等地展示给每一个用户,让用户选择;但由于工业界的推荐系统有海量的用户和候选物品,所以无法获取这样的无偏数据样本。最简单可实施的方案是对这种理想情况进行无偏采样,即给用户均匀随机地展示物品,这也是业界最常见的解决方案,Google、Criteo、Pinterest、Spotify等公司均采用了随机流量。于是,我们可以利用随机流量来观察选择偏置的存在。假设非随机流量下的观察到的物品的ctr为ctr1,随机流量下item ctr为ctr2,如下图所示,横坐标是各个物品被观察到的概率p,纵坐标是相应的log(ctr1/ctr2),表示两个策略下同一个物品的差异,越接近0,差异越小。可见,展示概率越低的物品的选择偏置越严重,因为这部分物品只在相对靠后的位置、展示给了少量的用户,属于尾部物品。也就是说,选择偏置是推荐系统对长尾物

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值