【模型】LightGBM

藓类少女

已于 2024-08-15 18:41:24 修改

阅读量667

点赞数 9

分类专栏： # 模型文章标签：模型机器学习

于 2024-07-30 18:29:27 首次发布

本文链接：https://blog.csdn.net/a13545564067/article/details/140803366

版权

模型专栏收录该内容

12 篇文章 0 订阅

订阅专栏

一、LightGBM

LightGBM（Light Gradient Boosting Machine）是一个高效的梯度提升框架，由微软的研究团队开发。它专为快速、分布式、高效的机器学习模型训练而设计，特别适用于大数据集和高维特征。以下是 LightGBM 的一些关键概念和特点：

1. 梯度提升（Gradient Boosting）

LightGBM 是一种基于梯度提升框架的机器学习算法。梯度提升是一种集成学习方法，通过构建多个弱学习器（通常是决策树）来提高模型的准确性。每一棵新的树都是在前一棵树的基础上，针对残差（即预测值与实际值之间的差异）进行拟合。

2. 特性和优势

高效性: LightGBM 能够高效处理大规模数据集和高维度特征，其训练速度和内存使用效率比传统的梯度提升算法更优。
快速训练: LightGBM 采用了基于直方图的决策树算法（Histogram-based Decision Tree Learning），这大大减少了训练过程中计算复杂度，从而加快了模型训练速度。
精度高: 由于 LightGBM 使用的决策树算法非常高效，模型的拟合能力很强，能够在保持高效性的同时达到较高的预测精度。
支持并行和分布式学习: LightGBM 可以轻松扩展到分布式系统，适用于处理大规模数据集和分布式训练环境。
自动处理类别型特征: LightGBM 可以自动处理类别型特征，而不需要手动进行独热编码（one-hot encoding）。

3. 核心概念

叶子增长策略（Leaf-wise Growth Strategy）: LightGBM 使用叶子增长策略，而不是深度优先或广度优先的增长策略。这意味着 LightGBM 每次在构建树时选择具有最大增益的叶子节点来扩展，从而产生更深的树，这种方式能够更好地捕捉复杂的特征交互。
直方图优化（Histogram-based Optimization）: LightGBM 使用直方图技术来加速寻找最佳分割点的过程。通过将连续的特征值离散化为一个固定数量的桶，可以显著降低计算开销。
基于直方图的对比损失（Histogram-based Contrastive Loss）: 这是 LightGBM 用于减少计算量的另一种策略，能在计算信息增益时只需遍历直方图的桶，而不是原始数据。

4. 超参数

LightGBM 提供了许多可调节的超参数，允许用户根据具体任务调整模型的性能和速度。常见的超参数包括：

num_leaves: 控制树的复杂度，叶子的数量越多，模型越复杂，但也更容易过拟合。
max_depth: 树的最大深度，用于防止过拟合。
learning_rate: 学习率，控制每次迭代时模型的步伐大小。
n_estimators: 提升树的数量，树的数量越多，模型的拟合能力越强。
min_child_weight: 一个用于控制过拟合的参数，通过限制子叶中的样本权重和来实现。

5. 应用场景

LightGBM 广泛应用于各种机器学习任务，尤其适合以下场景：

分类问题：如信用风险评估、用户分类等。
回归问题：如房价预测、销量预测等。
排序问题：如搜索结果排序、推荐系统等。
特征重要性分析：LightGBM 生成的模型可以用于分析特征的重要性，帮助理解模型决策的依据。

6. 使用示例

在 Python 中使用 LightGBM 通常如下所示：

import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 载入数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建LightGBM数据集
train_data = lgb.Dataset(X_train, label=y_train)
test_data = lgb.Dataset(X_test, label=y_test, reference=train_data)

# 设置参数
params = {
    'objective': 'binary',
    'metric': 'binary_logloss',
    'boosting_type': 'gbdt',
    'learning_rate': 0.05,
    'num_leaves': 31,
    'max_depth': -1,
}

# 训练模型
bst = lgb.train(params, train_data, valid_sets=[test_data], num_boost_round=100, early_stopping_rounds=10)

# 预测
y_pred = bst.predict(X_test, num_iteration=bst.best_iteration)
y_pred_binary = [1 if x > 0.5 else 0 for x in y_pred]

# 评估模型
accuracy = accuracy_score(y_test, y_pred_binary)
print(f"Accuracy: {accuracy:.4f}")

二、lgb.LGBMRegressor

lgb.LGBMRegressor 是 LightGBM 提供的用于回归任务的模型类。它基于梯度提升框架，适用于各种回归问题，包括但不限于房价预测、销量预测等连续数值的预测任务。LGBMRegressor 继承了 sklearn 中的回归模型接口，因此可以无缝集成到 scikit-learn 的生态系统中。

1. 关键参数

LGBMRegressor 提供了丰富的参数设置，用户可以根据任务的需求来调整模型的性能。以下是一些常用的参数：

boosting_type: 提升类型。常用的包括 'gbdt'（梯度提升决策树）、'dart'（Dropouts meet Multiple Additive Regression Trees）等。默认值为 'gbdt'。
num_leaves: 一棵树的最大叶子数。叶子数越多，模型越复杂，可能更容易过拟合。默认值为 31。
max_depth: 树的最大深度。限制树的深度可以防止过拟合。默认值为 -1，表示不限制树的深度。
learning_rate: 学习率，用于控制模型更新的步伐。较小的学习率通常能提高模型的泛化能力，但需要更多的迭代次数。默认值为 0.1。
n_estimators: 提升树的数量。树的数量越多，模型的拟合能力越强。默认值为 100。
min_child_samples: 一个叶子节点上最少的样本数量，用于避免过拟合。默认值为 20。
subsample: 用于训练模型的样本比例（行抽样），可以控制过拟合。默认值为 1.0。
colsample_bytree: 用于训练模型的特征比例（列抽样），可以控制过拟合。默认值为 1.0。
reg_alpha: L1 正则化项系数，增加它可以使模型更保守，防止过拟合。默认值为 0.0。
reg_lambda: L2 正则化项系数，类似 L1 正则化。默认值为 0.0。
random_state: 随机数种子，用于确保结果的可重复性。默认值为 None。
objective: 用于指定模型的目标函数（也称为损失函数）。目标函数定义了模型如何衡量预测值与实际值之间的差异，并指导模型通过不断优化（通常是梯度下降）来最小化这个差异。

常见的 objective 参数选项：

regression 或 regression_l2:
- 描述: L2 正则化的回归，即均方误差（MSE）作为损失函数。
- 用途: 这是默认的回归目标，适用于一般的回归任务。
- 公式:
- 适用场景: 适用于希望减少预测值与实际值之间的平方误差的任务。
regression_l1:
- 描述: L1 正则化的回归，即平均绝对误差（MAE）作为损失函数。
- 用途: 适用于对异常值不敏感的回归任务。
- 公式:
- 适用场景: 当数据中有噪音或异常值，并且这些异常值不应过多影响模型时使用。
huber:
- 描述: Huber 损失，它结合了 L1 和 L2 的优点，在较小的误差下表现为 L2 损失，而在较大误差时表现为 L1 损失。
- 用途: 适用于处理含有少量异常值的数据。
- 公式:
- 适用场景: 当需要同时平衡鲁棒性（对异常值不敏感）和模型的精确性时。
fair:
- 描述: Fair 损失函数，它通过对误差的线性部分进行平滑处理，旨在降低异常值的影响。
- 用途: 适用于对异常值有一定鲁棒性的回归任务。
- 公式:
- 适用场景: 当数据中有异常值，并且希望模型对这些异常值有一定的鲁棒性时。
poisson:
- 描述: 适用于泊松分布的回归任务，常用于建模事件计数数据。
- 用途: 当目标变量是计数数据，并且其分布符合泊松分布时使用。
- 公式:
- 适用场景: 预测事件发生次数（如顾客到访次数、事故发生次数等）。
quantile:
- 描述: 分位数回归，适用于预测目标变量的特定分位数。
- 用途: 用于衡量预测值处于特定分位数上的回归任务。
- 公式:
- 适用场景: 预测不同分位数的值，比如在风险分析中使用。
mape:
- 描述: 平均绝对百分比误差（Mean Absolute Percentage Error）。
- 用途: 当关心相对误差，而不是绝对误差时使用。
- 公式:
- 适用场景: 当目标值是数量级变化较大的数据时，MAPE可以更好地反映预测误差。
tweedie:
- 描述: Tweedie 分布的回归目标，适用于模型化带有零点值和正连续值的分布（例如保险索赔金额）。
- 用途: 适用于处理既包含零值又包含正值的数据。
- 适用场景: 保险领域和极端事件预测。

2. 使用示例

下面是使用 LGBMRegressor 的一个简单示例，来展示如何进行一个回归任务：

import lightgbm as lgb
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 生成模拟数据
X, y = make_regression(n_samples=1000, n_features=20, noise=0.1, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建LGBMRegressor模型
model = lgb.LGBMRegressor(
    boosting_type='gbdt',
    num_leaves=31,
    learning_rate=0.05,
    n_estimators=100,
    random_state=42
)

# 训练模型
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], eval_metric='mse', early_stopping_rounds=10)

# 预测
y_pred = model.predict(X_test, num_iteration=model.best_iteration_)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse:.4f}")