Kaggle知识点：LightGBM 回归损失

最新推荐文章于 2024-05-06 11:57:54 发布

数据派THU

最新推荐文章于 2024-05-06 11:57:54 发布

阅读量325

点赞数

文章标签：回归数据挖掘人工智能机器学习算法

版权

来源：Coggle数据科学‍‍‍‍‍‍‍‍‍‍‍‍‍
本文约1500字，建议阅读5分钟
本文介绍了LightGBM 回归损失。

L2 loss称为欧几里德损失（Euclidean loss）或平方误差（Squared error），用于衡量预测值与真实值之间的差异。对于回归问题，L2 loss 是一种常见的损失函数。其公式如下：

L2 loss 的计算过程是将每个样本的预测值与真实值之差的平方求和，然后取平均值。这种平方的操作有助于放大较大的误差，因此对大误差更加敏感。

L1 Loss（也称为Mean Absolute Error，MAE）是一种用于衡量预测值和真实值之间差异的损失函数。它的公式如下：

L1 Loss对离群值（outliers）不敏感，因为它使用的是绝对差值，而不是平方差值。在一些需要对异常值进行鲁棒处理的任务中，L1 Loss是一个不错的选择。

Huber Loss是一种用于回归问题的损失函数，它对异常值（outliers）具有一定的鲁棒性，相比于均方误差（MSE），在存在离群值时更不容易受到影响。Huber Loss的公式如下：

其中，是真实值，是模型的预测值，是一个阈值参数，用于控制Huber Loss在平方误差和绝对误差之间的平衡。当真实值和预测值之差的绝对值小于等于时，采用平方误差；否则，采用线性误差。

Huber Loss适用于回归问题，尤其是在存在离群值（异常值）的情况下。由于它在绝对误差较小时采用平方误差，而在绝对误差较大时采用线性误差，因此具有一定的鲁棒性，不容易受到离群值的影响。

Fair loss是一种用于训练模型的损失函数，其目的是通过惩罚预测误差的绝对值来降低对离群值的敏感性。

Fair loss通常在需要对模型对离群值更为鲁棒的情况下使用，因为它对大误差的惩罚较小，从而减轻了对离群值的过度敏感性。

Poisson Regression是一种用于建模计数数据的回归分析方法，它基于泊松分布。

如果是一个包含个独立变量的向量，Poisson回归模型的公式为：

Poisson回归适用于响应变量是计数数据的情况，比如客户到达次数、事故发生次数等。

Quantile regression（分位数回归）是一种在统计学和计量经济学中使用的回归分析方法。最小二乘法通过估计在预测变量的各个取值下响应变量的条件均值，而分位数回归则通过估计响应变量的条件中位数（或其他分位数）来进行拓展。分位数回归是在线性回归条件不满足时的一种拓展应用。

给定一个简单的线性回归模型：

分位数回归的一般形式是：

其中，是的第分位数，和是分位数回归的系数，是误差项。

分位数回归对异常值的影响较小，因为它关注的是分位数而不是均值。这使得它在处理数据中存在离群值时更为鲁棒。当数据的分布呈现偏斜时，分位数回归可以提供对不同分位数的条件分布的更全面理解，而不仅仅是均值。

MAPE（平均绝对百分比误差），也称为平均绝对百分比偏差（MAPD），是用来衡量统计学中预测方法的预测准确性的一种方法。它通常通过以下公式表示准确性，其中：

其中，是实际值，是预测值。它们的差异除以实际值。

MAPE常用于衡量时间序列预测模型的准确性，特别是在业务和经济领域中。它对于各种规模的数据集和不同量纲的变量都是有效的。

Gamma回归是一种统计模型，用于处理目标变量服从Gamma分布的情况。假设我们有一个随机变量，其服从Gamma分布，概率密度函数为：

这里，是形状参数（shape parameter），是尺度参数（scale parameter），是Gamma函数。

Gamma回归适用于目标变量为正值且服从Gamma分布的情况，可用于估计因变量和自变量之间的关系，并进行预测和推断。

Tweedie分布是指数分布模型的一种特殊情况，适用于一些特殊的场景，例如在保险领域建模总体损失时。此外，Tweedie回归也可以用于那些可能服从Tweedie分布的目标变量的建模，因为它涵盖了一系列不同的分布形式，从连续到离散的各种情况。‍

Tweedie分布的方差通常由方差函数（dispersion function）表示，即，其中是 Tweedie 分布的指数，通常取值在之间。

Tweedie回归适用于那些目标变量可能服从Tweedie分布的情况，例如在保险领域建模总体损失时，或者其他一些可能同时具有连续和离散性质的数据。

编辑：王菁

关注