什么是 LightGBM 学习笔记

biobin

于 2024-08-19 14:42:45 发布

阅读量498

点赞数 8

分类专栏：机器学习文章标签：学习笔记 python 机器学习

本文链接：https://blog.csdn.net/biobin/article/details/141325104

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

LightGBM（Light Gradient Boosting Machine）是一种高效的梯度提升（GBDT）框架，广泛应用于各种机器学习任务中，特别是处理大型数据集时。它以高效、快速的训练速度和良好的模型性能而著称。

1. 什么是 LightGBM？

LightGBM 是基于决策树的提升算法。它通过不断迭代，逐步构建多个弱学习器（如决策树），并将它们结合起来形成一个强大的模型。相比其他 GBDT 框架，LightGBM 在以下方面有显著优势：

速度快：利用直方图算法和高效的分裂方法，大大加快了训练过程。
内存占用少：使用更少的内存来处理大规模数据集。
处理大规模数据：对大量特征、样本进行高效处理。
支持类别特征：可以直接处理类别型数据，而无需进行独热编码（One-Hot Encoding）。

2. LightGBM 的工作原理

LightGBM 的核心思想是在每一轮迭代中构建一个新的决策树，并使用这个树来修正之前模型的误差。通过多轮迭代，模型逐渐逼近真实值。不同于传统的 GBDT，LightGBM 使用以下技术来提高效率和精度：

Leaf-wise 分裂：传统的 GBDT 是按层分裂（level-wise），LightGBM 则是选择一个叶节点分裂（leaf-wise），这样可以更快地减少损失，进而提高模型的准确性。
直方图算法：将特征值进行离散化处理，从而减少计算量，提高效率。

3. 通俗举例

假设你在预测一个人的收入，根据他的教育水平、工作经验、行业等特征。LightGBM 会通过逐轮迭代，先从粗略的预测开始（比如，所有人的收入平均值），然后逐渐修正预测误差，直到模型能更好地预测每个人的收入。

4. 实例代码

使用 Python 中的 lightgbm 库来进行一个简单的分类任务。我们使用 Iris 数据集来训练模型并进行预测。

import lightgbm as lgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据
data = load_iris()
X = data.data
y = data.target

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建 LightGBM 数据集
train_data = lgb.Dataset(X_train, label=y_train)
test_data = lgb.Dataset(X_test, label=y_test, reference=train_data)

# 设置模型参数
params = {
    'objective': 'multiclass',
    'num_class': 3,
    'metric': 'multi_logloss',
    'boosting_type': 'gbdt',
    'num_leaves': 31,
    'learning_rate': 0.05,
    'feature_fraction': 0.9
}

# 训练模型
model = lgb.train(params, train_data, valid_sets=[test_data], num_boost_round=100, early_stopping_rounds=10)

# 预测
y_pred = model.predict(X_test)
y_pred = [list(x).index(max(x)) for x in y_pred]

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy * 100:.2f}%")