Isotonic Regression

本文探讨了模型预估值的偏差原因及校准方法,重点介绍了Isotonic Regression在点击率估计模型校准中的应用,包括其模型定义、目标函数及算法步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

模型校准

模型的预估值往往存在偏差,其原因包括:

  • 模型的假设不一定完全成立,比如贝叶斯模型对事件独立同分布的假设
  • 训练样本是有偏差的,没有反应真实的分布情况
  • 训练算法的缺陷,导致并没有学习到最优的参数

以点击率估计为例,某些场景下,有偏点击率是可以直接使用,比如排序场景下重要的是估计值的相对大小,点击率绝对值并不重要;另一些场景下,有偏估计值需要经过校正后才能使用,比如过滤逻辑中点击率的绝对值就会影响物品会不会被过滤掉,例如风控模型,另外将点击率作为其他模型输入的情况下,点击率的绝对值也是有意义的。

模型校准的方法主要有Platt Scaling和Isotonic Regression,前者适用于样本量较少的情况,后者适用于样本量较多的情况。本文主要介绍后者,有空再补充前者的介绍。

Isotonic Regression

Isotonic regression的模型定义如下:

y i = f ( x i ) + ϵ y_i=f(x_i)+\epsilon yi=f(xi)+ϵ

其中 x i x_i xi为估计值, y i y_i yi为真实值, f f f为估计值到真实值的映射, ϵ \epsilon ϵ为误差。Isotonic regression的目标为找到一个估计值到真实值的单调递增函数 f ^ \hat{f} f^,满足:

f ^ = A r g M i n f ( y i − f ( x i ) ) 2 , 1 ≤ i ≤ N \hat{f}=ArgMin_{f}(y_i-f(x_i))^2,1\le i\le N f^=ArgMinf(yif(xi))21iN

其实就是真实值的最小二乘估计,额外的约束是映射必须是单调递增的。Isotonic regession的一种求解算法称为PAV算法,时间复杂度为o(n),这里不展开介绍了。

以点击率为例,应用isotonic regession一般分为以下几个步骤:

  • 准备训练好的点击率预估模型,以及单独的用于训练isotonic regression模型的标记数据
  • 将点击率区间[0, 1]划分为N个桶,例如 N = 1 0 5 N = 10^5 N=105,可以采用等长度划分,也可以采用变长度划分,使得落入桶内的样本分布均匀,也就是等样本量划分
  • 对数据集采样模型进行预估,得到点击率估计值,根据点击率估计值样本落入对应区间的分桶内
  • 每个分桶内的标记数据,可以计算出平均估计点击率和平均真实点击率,全部N个桶的平均估计点击率和平均真实点击率作为训练数据训练isotonic regression模型
  • 在需要校准点击率的场景下,由点击率估计模型输出校准前点击率,由isotonic regression模型输出校准后点击率
在Scikit-learn库中,有一些相对不太常见的回归模型可供选择,比如局部加权回归(Local Regression)、Isotonic Regression等。这里以Isotonic Regression为例来说明如何实现和评估: 首先,你需要安装scikit-learn和相关的数据处理库(如pandas、numpy): ```bash pip install scikit-learn pandas numpy ``` 然后导入必要的模块: ```python import sklearn from sklearn.isotonic import IsotonicRegression from sklearn.model_selection import train_test_split, cross_val_score from sklearn.metrics import mean_squared_error import pandas as pd import numpy as np ``` 假设你已经有了一个数据集(例如`df`),其中包含特征列`X`和目标变量`y`: ```python X = df[['feature1', 'feature2']] # 替换为实际的特征列名 y = df['target'] # 替换为目标变量名 ``` 接下来,将数据划分为训练集和测试集: ```python X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) ``` 创建并训练Isotonic Regression模型: ```python ir_model = IsotonicRegression() ir_model.fit(X_train, y_train) ``` 评估模型性能,通常使用交叉验证计算平均均方误差(MSE): ```python cv_scores = cross_val_score(ir_model, X, y, cv=5, scoring='neg_mean_squared_error') mse_scores = -cv_scores # 因cross_val_score返回的是负值,所以取反得到MSE print("Cross-validation MSE scores:", mse_scores) mean_cv_mse = np.mean(mse_scores) print("Mean Cross-validation MSE:", mean_cv_mse) ``` 最后,预测测试集结果,并计算测试集的RMSE(Root Mean Squared Error): ```python y_pred = ir_model.predict(X_test) rmse = np.sqrt(mean_squared_error(y_test, y_pred)) print("Test set RMSE:", rmse) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值