RLNF----Reinforcement Learning based Noise Filtering for Click-Through Rate Prediction

摘要:

点击率(CTR)预测旨在回忆用户感兴趣的广告,并引导用户点击,这对于各种在线广告系统至关重要。在实践中,CTR预测通常被描述为一个传统的二元分类问题,其中点击的广告是正样本,而其他则是负样本。然而,直接将未被贴上的广告视为负面样本会受到严重的标签噪音问题的影响,因为用户对一些广告感兴趣但不点击存在许多原因。为了解决这一严重问题,我们提出了一种基于强化学习的噪声滤波方法,称为RLNF,它使用噪声滤波器来选择有效的负样本。在RLNF中,可以使用这些选定的有效负样本来增强CTR预测模型,同时可以通过强化学习来增强噪声滤波器的有效性,将CTR预测模型的性能作为奖励。实际上,通过交替增强噪声滤波器和CTR预测模型,噪声滤波器和CTR预测模型的性能都得到了改善。在我们的实验中,我们用RLNF装备了7个最先进的CTR预测模型。在一个公共数据集和一个工业数据集上的大量实验表明,RLNF显著提高了所有7个CTR预测模型的性能,这表明了RLNF的有效性和通用性。

介绍:

在搜索引擎、电子商务系统和社交应用等在线广告系统中,点击率(CTR)预测至关重要,因为它直接影响财务收入[3,17,21,37],旨在准确估计点击率。因此,CTR预测引起了学术界和工业界研究人员的广泛关注。最近,人们提出了各种方法来改进

从不同方面分析了CTR预测的实际性能。特别是,最近的研究[10,27,30]侧重于建模用户的兴趣随时间动态变化。一系列研究[7,13,19,20,23,28,31,33,34,34,36,39]试图通过结合特征交互来提高CTR预测的性能。一系列研究[19,28,34]致力于提出解决稀疏性问题的有效方法,包括数据稀疏性问题和行为稀疏性问题。研究工作[8,35]致力于缓解标签失衡问题。另一组工作[1,2,9,11,14,22,42]旨在通过开发新的神经网络结构来提高CTR预测的实际性能。文献[18]关注通过可解释预测模型的可解释性。

在CTR预测的上下文中,人们很清楚地认识到:

如果推荐广告的主题与用户的兴趣相匹配,那么用户将获得良好的体验,并倾向于点击它们[10、25、26、30、38]。在实践中,现有方法主要将CTR预测视为传统的二元分类问题[21];特别是,点击的广告被视为正样本,未点击的广告被视为负样本。然而,现有的CTR预测方法直接将所有未点击的广告视为负样本,这将引发严重的标签噪声问题,因为用户可能对某些广告感兴趣但不点击它们有很多原因。例如,许多呈现给用户的广告实际上没有被点击,因为它们的布局不够醒目;事实上,对于广告来说,版面是影响用户点击行为的关键因素[5]。此外,最近的一项研究[16]表明,在用户点击之后,在各种在线广告系统中观察到阳性样本之前,会有相对较长的延迟。因此,这种严重的标签噪声问题会降低CTR预测的实际性能,甚至损害用户体验。

为了解决上述标签噪音问题,并建议

如果用户确实对高质量广告感兴趣,一个可取的解决方案是从嘈杂的负样本集中识别有效的负样本。基于这一思想,并受强化学习在正非标记学习[24]中成功应用的启发,我们提出了一种新的基于强化学习的噪声滤波方法,称为RLNF,以提高CTR预测模型的性能。特别是,RLNF依赖于通过新的噪声滤波器选择有效的负样本。在RLNF的训练过程中,可以使用选定的有效负样本来增强CTR预测模型,并将CTR预测模型的性能作为反馈来增强RLNF的噪声滤波器。通过强化学习,在RLNF中,噪声滤波器和CTR预测模型之间的相互作用形成了一个有效的反馈回路,可以共同提高它们的性能。为了展示RLNF的有效性,我们配备了7个最先进的

然后在公共数据集和工业数据集上进行大量实验。我们的研究结果表明,RLNF可以显著提高这7种最先进的CTR预测模型的实际性能,表明RLNF的有效性和通用性。我们将这项工作的主要贡献总结如下:

我们将这项工作的主要贡献总结如下:

•我们提出了一种称为RLNF的新方法,以解决CTR预测中严重的标签噪声问题。

•我们在RLNF中构建了一个优化框架,通过强化学习来改变噪声滤波器和CTR预测模型。

•我们在一个公共数据集和一个工业数据集上进行了大量实验,以表明RLNF提高了7个最先进的CTR预测模型的性能,表明了RLNF的有效性和通用性。

我的问题: 它是觉得负样本不一定是用户不感兴趣的,如果强行将所有的未交互作为负样本是存在问题的。 所以,它通过强化学习进行得到更有效的负样本,但是问题就是???到底怎样才算有效的负样本???

嗯嗯,先不管上述问题,它选到有效负样本之后的用途是:缩小负样本集,, 即刨除对那些用户可能感兴趣的,然后使用更可能是负样本的样本训练。

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值