LightGBM之metric的选择

本文详细介绍了多种机器学习评估指标,包括回归、分类任务中常用的l2、l1、AUC、RMSE等指标,以及针对排序、推荐系统的NDCG、MAP等指标。同时还涉及了特定场景下使用的泊松回归、Gamma回归等特殊评估标准。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

指标参数metric

评价指标
{l2 for regression},
{binary_logloss for binary classification},
{multi_logloss for classification}

  • “None”(字符串),表示无度量,等效于na,null,custom
  • l1(absolute loss),等效于mean_absolute_error,mae,regression_l1
  • l2(square loss),等效于mean_squared_error,mse,regression_l2,regression
  • rmse(平方根损失),等效于root_mean_squared_error,l2_root
  • quantile,分位数回归
  • mape(MAPE损失),等效于mean_absolute_percentage_error
  • huber(huber损失)
  • fair(fair损失)
  • poisson,泊松回归的负对数似然
  • gamma,Gamma回归的负对数似然
  • gamma_deviance,Gamma回归残差
  • tweedie,Tweedie回归的负对数似然
  • ndcg,等效于lambdarank,rank_xendcg,xendcg,xe_ndcg,xe_ndcg_mart,xendcg_mart
  • map,等效于mean_average_precision
  • auc
  • average_precision,平均精度得分
  • binary_logloss,log loss,等效于binary
  • binary_error,对于单样本,0用于正确分类,1用于错误分类
  • auc_mu
  • multi_logloss,多分类log loss,等效于multiclass,softmax,multiclassova,multiclass_ova,ova,ovr
  • multi_error,多分类错误率
  • cross_entropy,交叉熵(具有可选的线性权重),等效于xentropy
  • cross_entropy_lambda,“intensity-weighted”交叉熵,等效于 xentlambda
  • kullback_leibler,Kullback-Leibler散度,等效于kldiv

支持多个指标,使用“,”分隔。
‘metric’: {‘binary_logloss’, ‘auc’}

### LightGBM 特征选择算法工作原理 LightGBM 是一种高效的梯度提升决策树 (Gradient Boosting Decision Tree, GBDT) 算法,在特征选择方面具有显著优势。该算法不仅继承了传统 GBDT 的优点,还引入了一些独特的机制来增强其性能。 #### 1. 基于直方图的分裂查找方法 为了加速节点分裂过程中的最佳分割点计算,LightGBM 使用了一种称为 **Histogram-based Split Finding** 的技术。这种方法通过将连续型特征离散化为若干个区间(即桶),并统计每个区间的样本分布情况形成直方图。当寻找最优切分点时,只需遍历这些离散化的区间即可完成快速定位[^1]。 ```python import lightgbm as lgb # 创建数据集 train_data = lgb.Dataset(X_train, label=y_train) # 设置参数 params = { 'objective': 'binary', 'metric': {'auc'}, } # 训练模型 bst = lgb.train(params, train_data) ``` #### 2. GOSS 和 EFB 技术的应用 除了上述提到的直方图优化外,LightGBM 还采用了两种创新性的采样策略——渐进式一阶剪枝 (Gradual One-Side Sampling, GOSS)[^2] 及互斥特征捆绑 (Exclusive Feature Bundling, EFB),用于进一步减少不必要的计算开销: - **GOSS**: 对于每一轮迭代过程中产生的梯度值较大的少数重要样本给予更多关注;而对于那些贡献较小的数据则适当降低权重甚至忽略不计。 - **EFB**: 将相互排斥或几乎不会同时取较大绝对值的一组特征绑定在一起表示,从而有效降低了输入维度。 这两种方法共同作用下使得 LightGBM 能够更高效地处理大规模稀疏数据,并且在保持较高精度的同时大幅缩短训练时间。 #### 3. 构建基于 LightGBM 的特征选择流程 对于具体的特征选择应用场景而言,通常会经历以下几个阶段的操作[^3]: - 数据预处理:包括缺失值填补、异常检测以及标准化转换等操作; - 利用 LightGBM 自带的重要性评分功能筛选出最具影响力的变量集合; - 结合领域知识调整最终选定的关键属性列表; - 验证所选特征组合的效果并通过交叉验证等方式不断调优直至获得满意的结果。 综上所述,LightGBM 不仅具备强大的预测能力,而且内置了一系列有助于理解各因素间关系的功能模块,这使其成为解决复杂机器学习任务的理想工具之一。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值