LightGBM简介与代码实现

最新推荐文章于 2024-06-01 12:22:13 发布

乙坂有宇♡

最新推荐文章于 2024-06-01 12:22:13 发布

阅读量1.2k

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/qq_51994753/article/details/117262903

版权

LightGBM简介

1.基于直方图的决策树算法
基本思路：首先确定对于每一个特征需要多少个箱子(bin)并为每一个箱子分配一个整数；然后将浮点数的范围均分成若干区间，区间个数与箱子个数相等，将属于该箱子的样本数据更新为箱子的值；最后用直方图（bins）表示。
在这里插入图片描述
2.直方图做差加速
一个叶子的直方图可以由他的父亲节点的直方图与它兄弟的直方图做差得到，速度提升了一倍。
通常构造直方图时，需要遍历该叶子上的所有数据，但直方图做差仅需遍历直方图的k个桶。在实际构建树的过程中，LightGBM还可以先计算直方图小的叶子节点，然后利用直方图做差来获得直方图打的叶子节点，这样可以用非常微小的代价得到它兄弟叶子的直方图。
在这里插入图片描述
3.带深度限制的Leaf-wise 算法
LightGBM采用Leaf-wise的增长策略，该策略每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环。
Leaf-wise的优点是：在分裂次数相同的情况下，Leaf-wise可以降低更多的误差，得到更好的精度；
Leaf-wise的缺点是：可能会长出比较深的决策树，产生过拟合。
因此LightGBM会在Leaf-wise之上增加了一个最大深度的限制，在保证高效率的同时防止过拟合。
在这里插入图片描述
4.直接支持类别特征
LightGBM采用了Many vs many的切分方式，实现了类别特征的最优切分。
用LightGBM可以直接输入类别特征，并产生下图的效果。

算法流程：在枚举分割点之前，先把直方图按每个类别的均值进行排序；然后按照均值的结果依次枚举最优分割点。从下图可以看到，Sum(y)/Count(y)为类别的均值。当然，这个方法很容易过拟合，所以在LGBM中加入了很多对这个方法的约束和正则化。
在这里插入图片描述
5.支持高效并行
（1）特征并行
特征并行的主要思想是不同机器在不同的特征集合上分别寻找最优的分割点，然后在机器间同步最优的分割点。
（2）数据并行
LightGBM在数据并行中使用分散规约 (Reduce scatter) 把直方图合并的任务分摊到不同的机器，降低通信和计算，并利用直方图做差，进一步减少了一半的通信量。
在这里插入图片描述
（3）投票并行
在数据量很大的时候，使用投票并行的方式只合并部分特征的直方图从而达到降低通信量的目的，可以得到非常好的加速效果。
大致步骤：
1.本地找出 Top K 特征，并基于投票筛选出可能是最优分割点的特征；
2.合并时只合并每个机器选出来的特征。
在这里插入图片描述

代码实现

import json
import lightgbm as lgb
import pandas as pd
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.datasets import  make_classification
 
iris = load_iris()   # 载入鸢尾花数据集
data=iris.data
target = iris.target
X_train,X_test,y_train,y_test =train_test_split(data,target,test_size=0.2)
 
 
# 加载数据
# print('Load data...')
# df_train = pd.read_csv('../regression/regression.train', header=None, sep='\t')
# df_test = pd.read_csv('../regression/regression.test', header=None, sep='\t')
#
# y_train = df_train[0].values
# y_test = df_test[0].values
# X_train = df_train.drop(0, axis=1).values
# X_test = df_test.drop(0, axis=1).values
 
# 创建成lgb特征的数据集格式
lgb_train = lgb.Dataset(X_train, y_train) # 将数据保存到LightGBM二进制文件将使加载更快
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)  # 创建验证数据
 
# 将参数写成字典下形式
params = {
    'task': 'train',
    'boosting_type': 'gbdt',  # 设置提升类型
    'objective': 'regression', # 目标函数
    'metric': {'l2', 'auc'},  # 评估函数
    'num_leaves': 31,   # 叶子节点数
    'learning_rate': 0.05,  # 学习速率
    'feature_fraction': 0.9, # 建树的特征选择比例
    'bagging_fraction': 0.8, # 建树的样本采样比例
    'bagging_freq': 5,  # k 意味着每 k 次迭代执行bagging
    'verbose': 1 # <0 显示致命的, =0 显示错误 (警告), >0 显示信息
}
 
print('Start training...')
# 训练 cv and train
gbm = lgb.train(params,lgb_train,num_boost_round=20,valid_sets=lgb_eval,early_stopping_rounds=5) # 训练数据需要参数列表和数据集
 
print('Save model...') 
 
gbm.save_model('model.txt')   # 训练后保存模型到文件
 
print('Start predicting...')
# 预测数据集
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration) #如果在训练期间启用了早期停止，可以通过best_iteration方式从最佳迭代中获得预测
# 评估模型
print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5) # 计算真实值和预测值之间的均方根误差

结果：
在这里插入图片描述

乙坂有宇♡

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
LightGBM简介与代码实现

LightGBM简介1.基于直方图的决策树算法基本思路：首先确定对于每一个特征需要多少个箱子(bin)并为每一个箱子分配一个整数；然后将浮点数的范围均分成若干区间，区间个数与箱子个数相等，将属于该箱子的样本数据更新为箱子的值；最后用直方图（bins）表示。2.直方图做差加速一个叶子的直方图可以由他的父亲节点的直方图与它兄弟的直方图做差得到，速度提升了一倍。通常构造直方图时，需要遍历该叶子上的所有数据，但直方图做差仅需遍历直方图的k个桶。在实际构建树的过程中，LightGBM还可以先计算直方图小的
复制链接

扫一扫