XGBoost自定义目标函数与评估指标教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_01072/article/details/148360927

XGBoost自定义目标函数与评估指标教程

xgboost dmlc/xgboost: 是一个高效的的机器学习算法库，基于 C++ 开发，提供用于提升分类、回归、排序等任务的性能。项目地址: https://gitcode.com/gh_mirrors/xg/xgboost

概述

XGBoost作为一个可扩展的机器学习库，允许用户自定义目标函数和评估指标来满足特定需求。本教程将详细介绍如何在XGBoost中实现自定义的目标函数和评估指标，并通过平方对数误差(SLE)及其对应的均方根对数误差(RMSLE)作为示例进行说明。

目标函数与评估指标的基本概念

在XGBoost中，目标函数用于：

计算模型预测值与真实标签之间的差异
提供梯度信息（一阶和二阶导数）
指导模型优化方向

评估指标则用于监控模型在训练过程中的表现，通常与目标函数相关但不完全相同。

平方对数误差(SLE)实现

平方对数误差(SLE)的数学表达式为：

1/2 * [log(pred + 1) - log(label + 1)]^2

梯度计算

SLE的一阶导数（梯度）为：

[log(pred + 1) - log(label + 1)] / (pred + 1)

海森矩阵计算

SLE的二阶导数（海森矩阵）为：

[-log(pred + 1) + log(label + 1) + 1] / (pred + 1)^2

Python实现代码

import numpy as np
import xgboost as xgb
from typing import Tuple

def gradient(predt: np.ndarray, dtrain: xgb.DMatrix) -> np.ndarray:
    '''计算平方对数误差的梯度'''
    y = dtrain.get_label()
    return (np.log1p(predt) - np.log1p(y)) / (predt + 1)

def hessian(predt: np.ndarray, dtrain: xgb.DMatrix) -> np.ndarray:
    '''计算平方对数误差的海森矩阵'''
    y = dtrain.get_label()
    return ((-np.log1p(predt) + np.log1p(y) + 1) /
            np.power(predt + 1, 2))

def squared_log(predt: np.ndarray,
                dtrain: xgb.DMatrix) -> Tuple[np.ndarray, np.ndarray]:
    '''平方对数误差目标函数'''
    predt[predt < -1] = -1 + 1e-6  # 防止数值不稳定
    grad = gradient(predt, dtrain)
    hess = hessian(predt, dtrain)
    return grad, hess

均方根对数误差(RMSLE)实现

RMSLE是SLE的常用评估指标，其数学表达式为：

sqrt(1/N * [log(pred + 1) - log(label + 1)]^2)

Python实现代码

def rmsle(predt: np.ndarray, dtrain: xgb.DMatrix) -> Tuple[str, float]:
    '''均方根对数误差评估指标'''
    y = dtrain.get_label()
    predt[predt < -1] = -1 + 1e-6  # 数值稳定性处理
    elements = np.power(np.log1p(y) - np.log1p(predt), 2)
    return 'PyRMSLE', float(np.sqrt(np.sum(elements) / len(y)))

在XGBoost中使用自定义函数

训练时使用自定义目标函数

xgb.train({'tree_method': 'hist', 'seed': 1994},
          dtrain=dtrain,
          num_boost_round=10,
          obj=squared_log)

同时使用自定义评估指标

xgb.train({'tree_method': 'hist', 'seed': 1994,
           'disable_default_eval_metric': 1},
          dtrain=dtrain,
          num_boost_round=10,
          obj=squared_log,
          custom_metric=rmsle,
          evals=[(dtrain, 'dtrain'), (dtest, 'dtest')],
          evals_result=results)

反向链接函数注意事项

当使用内置目标函数时，XGBoost会自动处理预测值的转换。但对于自定义目标函数，用户需要自行处理：

对于恒等链接函数（如平方误差），无需特殊处理
对于对数链接或逆链接等非线性链接函数，需要特别注意预测值的转换

在Python接口中，可以通过predict函数的output_margin参数控制预测行为。

Scikit-Learn接口集成

XGBoost提供了与scikit-learn的良好集成：

直接使用scikit-learn的损失函数

from sklearn.metrics import mean_absolute_error
reg = xgb.XGBRegressor(
    tree_method="hist",
    eval_metric=mean_absolute_error,
)
reg.fit(X, y, eval_set=[(X, y)])

简化版自定义目标函数

def softprob_obj(labels: np.ndarray, predt: np.ndarray) -> Tuple[np.ndarray, np.ndarray]:
    rows = labels.shape[0]
    classes = predt.shape[1]
    grad = np.zeros((rows, classes), dtype=float)
    hess = np.zeros((rows, classes), dtype=float)
    eps = 1e-6
    for r in range(predt.shape[0]):
        target = labels[r]
        p = softmax(predt[r, :])
        for c in range(predt.shape[1]):
            g = p[c] - 1.0 if c == target else p[c]
            h = max((2.0 * p[c] * (1.0 - p[c])).item(), eps)
            grad[r, c] = g
            hess[r, c] = h
    return grad.reshape((rows * classes, 1)), hess.reshape((rows * classes, 1))

clf = xgb.XGBClassifier(tree_method="hist", objective=softprob_obj)