延迟反馈带来的样本偏差如何处理

最新推荐文章于 2024-09-14 19:18:15 发布

炼丹笔记

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量407

点赞数

文章标签：机器学习深度学习人工智能大数据算法

本文链接：https://blog.csdn.net/m0_52122378/article/details/120903096

版权

这篇论文针对广告系统中转化率预估的延迟反馈问题提出了一种名为DEFER的解决方案。传统的处理方式是设置等待窗口，超过窗口未转化的样本被视为负样本，但这可能导致样本偏差。DEFER方法通过复制真实负样本和正样本来保持样本分布的一致性，减少偏差，同时保证模型训练的实时性。此外，文中还介绍了一种多任务离线训练策略，通过使用不同窗口大小增强模型的泛化能力。

摘要由CSDN通过智能技术生成

在广告系统中,转化率预估是个非常常见的任务,但是转化行为的发生时间往往发生在点击行为后很久,这样就产生了一个很严重的问题.转化率模型需要不断更新,但是产生点击的数据又不能及时用于转化率预估,也就是我们常说的延迟反馈问题.以前的方法往往预留一个时间窗口,超过这个窗口的样本会当作负样本,如果该样本后续又发生了转化,那又会多一条正样本注入模型,这样就会带来样本偏差.所以这篇论文<Real Negatives Matter: Continuous Training with Real Negatives for Delayed Feedback Modeling>给出了解决方案.

延迟反馈建模

转化率预估本质就是个二分类问题,每个样本会被打上{0,1}的标签,但是由于延迟反馈问题,如下图所示,在等待窗口中发生转化的都被标为正确的样本,但是超出这个窗口后就有被标为负样本但实际是正样本的风险.一个非常navie的想法就是扩大等待窗口.但是在广告系统中数据分布是在动态变化的,扩大等待窗口会导致模型学习不够充分.