WWW 2022 | MBCT:基于树模型的特征可感知的个性化校准方法

丨目录:

   · 引言

   · 背景

   · 校准误差的度量

   · 校准方法

   · 实验与分析

   · 结论与展望

   · 参考文献

▐ 引言

预估校准在广告系统中的重要性不言而喻,在出价稳定性、混排公平性以及扣费合理性等方面发挥着重要作用,是平台收益和客户体验的重要保障能力。近期我们借助树结构实现了一种智能化分箱校准算法框架(MBCT),并提出近似无偏的校准评估体系(MVCE),取得了预估校准问题的新突破。我们还发布大规模预估校准数据集(CACTRDC),为今后的校准研究提供了更丰富的数据基础。该项工作相关内容已发表在 TheWebConf 2022,欢迎感兴趣的同学阅读交流。

论文:

MBCT: Tree-Based Feature-Aware Binning for Individual Uncertainty Calibration

论文下载:

https://arxiv.org/abs/2202.04348

CACTRDC数据集:

https://github.com/huangsg1/Tree-Based-Feature-Aware-Binning-for-Individual-Uncertainty-Calibration

▐ 背景

以点击率预估为代表的许多机器学习应用,不同于图像或文本分类等拥有确定性答案的分类任务,其标签值(Label)通常是某个概率分布下的一次观测结果。在这类预估任务上,我们不仅希望能够预测事件发生的倾向性(如消费者更可能点击哪个商品;患者更可能是患有什么疾病),往往还希望能产出事件发生的真实概率。以广告系统中的点击率为例,预估点击率参与RTB广告系统中的排序和计费逻辑,其大小准确性会显著影响广告的分配效率和计费准确性。

在这类基于不确定事件观测样本的预估任务中,人们通常对问题进行抽象和简化,假设样本特征和事件的联合分布服从某种函数形式,并以Data-Driven的方式学习该分布。但是绝大多数方法(如逻辑回归,神经网络等)只能学习到较好的序关系,其预估值往往会偏离其真实概率。此外,在实际应用中我们只能得到事件的观测结果,而不能得到事件发生的真实概率,因此也难以度量预估值和真实概率的偏差。

预估不确定度校准正是为了解决这些问题,其主要研究方向包括校准误差度量(如何度量预估结果和真实概率值的偏差)和校准算法(如何减小模型预估校准的误差)。本文将介绍我们在这两个方向上的新工作。

▐ 校准误差的度量

为了衡量预估值和真实概率的误差,我们可以直观地定义一个范数的误差函数——TCE(True Calibration Error):

402 Payment Required

其中表示特征空间,表示观测标签的空间,表示原始预估模型。

然而在点击率预估等任务中,其真实概率是无法得到的,我们无法直接计算TCE。因此人们通常使用范数的ECE[6,10,11](Expected Calibration Error)来近似地表征TCE:

其中为分桶数量,为数据集,为数据集第个分桶对应的子集。在计算ECE时,首先要将测试集中的样本按照原始预估值大小排序,然后等频或等距地进行分桶,将其切分为个子集,最后在每个子集上计算PCE,并按照公式2得到ECE。其中PCE为Partition Calibration Error,其定义如公式3所示:

在过去的研究工作中,ECE一直作为不确定度校准的主要评价指标。Google的Roelofs等人[1]针对ECE的不足,提出了其变体,在将样本按照预估值大小排序后,应用一种新的分桶策略(等频分桶下使得每个桶的正样本数保序的最大分桶数量),如公式(4)所示,其中表示第个分桶中正样本的数量:

但是这些指标都只从某些特定的维度去衡量校准误差,对于一个绝对好的校准结果,其任意维度下(样本足够置信的子集合)的PCE都应该接近于0。 因此我们提出了一个多维度的校准误差评估指标来缓解现有评价指标的问题,记作MVCE(Multi-View Calibration Error),其计算方式可形式化为:

402 Payment Required

其中和分别为预估函数和校准函数,表示对数据集的第种划分,表示由第种划分方法得到的第个划分子集。在计算MVCE时,我们采取种不同的划分(分桶)方式,计算每种划分下的平均ECE作为MVCE的结果。为了构建不同的划分方式,我们首先对数据集进行随机打乱,然后进行等频划分计算ECE,这样迭代多次后MVCE将逐步收敛。</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值