Kaggle知识点:LightGBM 回归损失

c63deae39e4492f3046dc26a5227e82f.png

来源:Coggle数据科学‍‍‍‍‍‍‍‍‍‍‍‍‍
本文约1500字,建议阅读5分钟
本文介绍了LightGBM 回归损失。

回归损失:L2

L2 loss称为欧几里德损失(Euclidean loss)或平方误差(Squared error),用于衡量预测值与真实值之间的差异。对于回归问题,L2 loss 是一种常见的损失函数。其公式如下:

L2 loss 的计算过程是将每个样本的预测值与真实值之差的平方求和,然后取平均值。这种平方的操作有助于放大较大的误差,因此对大误差更加敏感。

回归损失:L1

L1 Loss(也称为Mean Absolute Error,MAE)是一种用于衡量预测值和真实值之间差异的损失函数。它的公式如下:

L1 Loss对离群值(outliers)不敏感,因为它使用的是绝对差值,而不是平方差值。在一些需要对异常值进行鲁棒处理的任务中,L1 Loss是一个不错的选择。

回归损失:Huber Loss

Huber Loss是一种用于回归问题的损失函数,它对异常值(outliers)具有一定的鲁棒性,相比于均方误差(MSE),在存在离群值时更不容易受到影响。Huber Loss的公式如下:

其中, 是真实值, 是模型的预测值, 是一个阈值参数,用于控制Huber Loss在平方误差和绝对误差之间的平衡。当真实值和预测值之差的绝对值小于等于  时,采用平方误差;否则,采用线性误差。

Huber Loss适用于回归问题,尤其是在存在离群值(异常值)的情况下。由于它在绝对误差较小时采用平方误差,而在绝对误差较大时采用线性误差,因此具有一定的鲁棒性,不容易受到离群值的影响。

回归损失:Fair loss

Fair loss是一种用于训练模型的损失函数,其目的是通过惩罚预测误差的绝对值来降低对离群值的敏感性。

Fair loss通常在需要对模型对离群值更为鲁棒的情况下使用,因为它对大误差的惩罚较小,从而减轻了对离群值的过度敏感性。

回归损失:Poisson Regression

Poisson Regression是一种用于建模计数数据的回归分析方法,它基于泊松分布。

如果  是一个包含个独立变量的向量,Poisson回归模型的公式为:

Poisson回归适用于响应变量是计数数据的情况,比如客户到达次数、事故发生次数等。

回归损失:Quantile regression

Quantile regression(分位数回归)是一种在统计学和计量经济学中使用的回归分析方法。最小二乘法通过估计在预测变量的各个取值下响应变量的条件均值,而分位数回归则通过估计响应变量的条件中位数(或其他分位数)来进行拓展。分位数回归是在线性回归条件不满足时的一种拓展应用。

给定一个简单的线性回归模型:

分位数回归的一般形式是:

其中, 是  的第  分位数, 和  是分位数回归的系数, 是误差项。

分位数回归对异常值的影响较小,因为它关注的是分位数而不是均值。这使得它在处理数据中存在离群值时更为鲁棒。当数据的分布呈现偏斜时,分位数回归可以提供对不同分位数的条件分布的更全面理解,而不仅仅是均值。

回归损失:MAPE Loss

MAPE(平均绝对百分比误差),也称为平均绝对百分比偏差(MAPD),是用来衡量统计学中预测方法的预测准确性的一种方法。它通常通过以下公式表示准确性,其中:

其中, 是实际值, 是预测值。它们的差异除以实际值 。

MAPE常用于衡量时间序列预测模型的准确性,特别是在业务和经济领域中。它对于各种规模的数据集和不同量纲的变量都是有效的。

回归损失:Gamma regression

Gamma回归是一种统计模型,用于处理目标变量服从Gamma分布的情况。假设我们有一个随机变量 ,其服从Gamma分布,概率密度函数为:

这里, 是形状参数(shape parameter), 是尺度参数(scale parameter), 是Gamma函数。

Gamma回归适用于目标变量为正值且服从Gamma分布的情况,可用于估计因变量和自变量之间的关系,并进行预测和推断。

回归损失:Tweedie regression

Tweedie分布是指数分布模型的一种特殊情况,适用于一些特殊的场景,例如在保险领域建模总体损失时。此外,Tweedie回归也可以用于那些可能服从Tweedie分布的目标变量的建模,因为它涵盖了一系列不同的分布形式,从连续到离散的各种情况。‍

Tweedie分布的方差通常由方差函数(dispersion function)表示,即 ,其中  是 Tweedie 分布的指数,通常取值在  之间。

Tweedie回归适用于那些目标变量可能服从Tweedie分布的情况,例如在保险领域建模总体损失时,或者其他一些可能同时具有连续和离散性质的数据。

编辑:王菁

3264872f03beb6b7843092119584625b.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值