Isotonic Regression

模型校准

模型的预估值往往存在偏差,其原因包括:

  • 模型的假设不一定完全成立,比如贝叶斯模型对事件独立同分布的假设
  • 训练样本是有偏差的,没有反应真实的分布情况
  • 训练算法的缺陷,导致并没有学习到最优的参数

以点击率估计为例,某些场景下,有偏点击率是可以直接使用,比如排序场景下重要的是估计值的相对大小,点击率绝对值并不重要;另一些场景下,有偏估计值需要经过校正后才能使用,比如过滤逻辑中点击率的绝对值就会影响物品会不会被过滤掉,例如风控模型,另外将点击率作为其他模型输入的情况下,点击率的绝对值也是有意义的。

模型校准的方法主要有Platt Scaling和Isotonic Regression,前者适用于样本量较少的情况,后者适用于样本量较多的情况。本文主要介绍后者,有空再补充前者的介绍。

Isotonic Regression

Isotonic regression的模型定义如下:

y i = f ( x i ) + ϵ y_i=f(x_i)+\epsilon yi=f(xi)+ϵ

其中 x i x_i xi为估计值, y i y_i yi为真实值, f f f为估计值到真实值的映射, ϵ \epsilon ϵ为误差。Isotonic regression的目标为找到一个估计值到真实值的单调递增函数 f ^ \hat{f} f^,满足:

f ^ = A r g M i n f ( y i − f ( x i ) ) 2 , 1 ≤ i ≤ N \hat{f}=ArgMin_{f}(y_i-f(x_i))^2,1\le i\le N f^=ArgMinf(yif(xi))21iN

其实就是真实值的最小二乘估计,额外的约束是映射必须是单调递增的。Isotonic regession的一种求解算法称为PAV算法,时间复杂度为o(n),这里不展开介绍了。

以点击率为例,应用isotonic regession一般分为以下几个步骤:

  • 准备训练好的点击率预估模型,以及单独的用于训练isotonic regression模型的标记数据
  • 将点击率区间[0, 1]划分为N个桶,例如 N = 1 0 5 N = 10^5 N=105,可以采用等长度划分,也可以采用变长度划分,使得落入桶内的样本分布均匀,也就是等样本量划分
  • 对数据集采样模型进行预估,得到点击率估计值,根据点击率估计值样本落入对应区间的分桶内
  • 每个分桶内的标记数据,可以计算出平均估计点击率和平均真实点击率,全部N个桶的平均估计点击率和平均真实点击率作为训练数据训练isotonic regression模型
  • 在需要校准点击率的场景下,由点击率估计模型输出校准前点击率,由isotonic regression模型输出校准后点击率
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值