机器学习（12）——LGBM（1）

追逐☞

已于 2025-05-18 20:59:36 修改

阅读量835

点赞数 14

分类专栏：机器学习文章标签：机器学习

于 2025-05-18 20:57:06 首次发布

本文链接：https://blog.csdn.net/jiaomongjun/article/details/148046521

版权

机器学习专栏收录该内容

15 篇文章

订阅专栏

文章目录

LightGBM算法详解

LightGBM算法详解

LightGBM（Light Gradient Boosting Machine）是微软开发的一个基于决策树算法的分布式梯度提升框架，专为高效性和可扩展性设计。

1. 算法背景

LightGBM属于梯度提升决策树(GBDT)家族，是XGBoost之后的一个重要改进。它于2017年由微软团队提出，主要解决了以下问题：

传统GBDT在大规模数据上效率低
内存消耗大
训练速度慢

2. 核心创新

2.1 基于直方图的决策树算法

LightGBM将连续特征值离散化为k个整数（默认255），构造特征直方图。训练时基于这些直方图寻找最优分割点，带来以下优势：

内存消耗降低：从O(#data * #features)降到O(k * #features)
计算代价降低：从O(#data * #features)降到O(k * #features)

2.2 单边梯度采样(GOSS)

传统GBDT计算信息增益时需要对所有数据点的梯度进行统计。GOSS通过以下方式优化：

保留梯度较大的前a%样本
从剩余样本中随机抽取b%样本
在计算信息增益时，对小梯度样本的权重乘以常数(1-a)/b

2.3 互斥特征捆绑(EFB)

高维特征通常是稀疏的，许多特征互斥（不会同时取非零值）。EFB将这些特征捆绑在一起，将复杂度从O(#features)降到O(#bundle)，同时不影响准确性。

3. 算法细节

3.1 树生长策略

LightGBM采用leaf-wise生长策略（区别于level-wise）：

每次从当前所有叶子中，选择分裂增益最大的叶子进行分裂
能更有效地降低损失，但可能导致较深的树
可通过max_depth参数限制深度防止过拟合

3.2 特征并行与数据并行

特征并行：不同机器处理不同特征，寻找最佳分割点
数据并行：数据分散到不同机器，每台机器构建局部直方图后合并

3.3 类别特征处理

LightGBM原生支持类别特征，无需独热编码：

直接按类别值排序后寻找最优分割
通过max_cat_threshold控制分裂数
比独热编码更高效且通常效果更好

4. 关键参数说明

4.1 核心参数

boosting_type: 提升类型，默认gbdt
objective: 目标函数，如regression、binary、multiclass等
metric: 评估指标

4.2 控制速度参数

num_iterations: 迭代次数
learning_rate: 学习率
num_leaves: 叶子数（主要控制复杂度）
max_depth: 树的最大深度

4.3 控制过拟合参数

lambda_l1: L1正则化
lambda_l2: L2正则化
min_data_in_leaf: 叶子最小样本数
feature_fraction: 特征采样比例
bagging_fraction: 数据采样比例

5. 与XGBoost对比

特性	LightGBM	XGBoost
树生长策略	leaf-wise	level-wise
特征离散化	直方图算法	预排序算法
内存使用	更低	较高
训练速度	更快	较慢
类别特征处理	原生支持	需要编码
并行方式	特征+数据并行	主要特征并行
小数据集表现	可能过拟合	通常更好

6. 实践建议

参数调优顺序：
- 首先设置较大的num_leaves和较小的learning_rate
- 调整num_iterations使用早停法
- 然后调节min_data_in_leaf和max_depth防止过拟合
- 最后调整正则化参数
类别特征处理：
- 直接指定为类别类型比独热编码更高效
- 对高基数类别特征可考虑目标编码
不平衡数据：
- 使用is_unbalance参数或设置scale_pos_weight
- 也可调整class_weight参数
并行加速：
- 设置feature_fraction和bagging_fraction小于1
- 使用bagging_freq启用随机采样

7. 代码示例

import lightgbm as lgb
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# 加载数据
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2)

# 创建数据集
train_data = lgb.Dataset(X_train, label=y_train)
test_data = lgb.Dataset(X_test, label=y_test, reference=train_data)

# 设置参数
params = {
    'boosting_type': 'gbdt',
    'objective': 'binary',
    'metric': 'binary_logloss',
    'num_leaves': 31,
    'learning_rate': 0.05,
    'feature_fraction': 0.9,
    'bagging_fraction': 0.8,
    'bagging_freq': 5,
    'verbose': 0
}

# 训练模型
gbm = lgb.train(params,
                train_data,
                num_boost_round=100,
                valid_sets=[test_data],
                early_stopping_rounds=10)

# 预测
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration)