Isotonic Regression

最新推荐文章于 2024-09-06 17:11:52 发布

jony0917

最新推荐文章于 2024-09-06 17:11:52 发布

阅读量872

点赞数

文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaofeipaopaotang/article/details/107846370

版权

本文探讨了模型预估值的偏差原因及校准方法，重点介绍了Isotonic Regression在点击率估计模型校准中的应用，包括其模型定义、目标函数及算法步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

模型校准

模型的预估值往往存在偏差，其原因包括：

模型的假设不一定完全成立，比如贝叶斯模型对事件独立同分布的假设
训练样本是有偏差的，没有反应真实的分布情况
训练算法的缺陷，导致并没有学习到最优的参数

以点击率估计为例，某些场景下，有偏点击率是可以直接使用，比如排序场景下重要的是估计值的相对大小，点击率绝对值并不重要；另一些场景下，有偏估计值需要经过校正后才能使用，比如过滤逻辑中点击率的绝对值就会影响物品会不会被过滤掉，例如风控模型，另外将点击率作为其他模型输入的情况下，点击率的绝对值也是有意义的。

模型校准的方法主要有Platt Scaling和Isotonic Regression，前者适用于样本量较少的情况，后者适用于样本量较多的情况。本文主要介绍后者，有空再补充前者的介绍。

Isotonic Regression

Isotonic regression的模型定义如下：

$y_i=f(x_i)+\epsilon$

其中 $x_i$ 为估计值， $y_i$ 为真实值， $f$ 为估计值到真实值的映射， $\epsilon$ 为误差。Isotonic regression的目标为找到一个估计值到真实值的单调递增函数 $\hat{f}$ ，满足：

$\hat{f}=ArgMin_{f}(y_i-f(x_i))^2，1\le i\le N$

其实就是真实值的最小二乘估计，额外的约束是映射必须是单调递增的。Isotonic regession的一种求解算法称为PAV算法，时间复杂度为o(n)，这里不展开介绍了。

以点击率为例，应用isotonic regession一般分为以下几个步骤：

准备训练好的点击率预估模型，以及单独的用于训练isotonic regression模型的标记数据
将点击率区间[0, 1]划分为N个桶，例如 $N = 10^5$ ，可以采用等长度划分，也可以采用变长度划分，使得落入桶内的样本分布均匀，也就是等样本量划分
对数据集采样模型进行预估，得到点击率估计值，根据点击率估计值样本落入对应区间的分桶内
每个分桶内的标记数据，可以计算出平均估计点击率和平均真实点击率，全部N个桶的平均估计点击率和平均真实点击率作为训练数据训练isotonic regression模型
在需要校准点击率的场景下，由点击率估计模型输出校准前点击率，由isotonic regression模型输出校准后点击率

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。