常见集成学习算法模型&LightGBM示例

最新推荐文章于 2024-07-11 16:52:22 发布

跌跌撞撞进大坑

最新推荐文章于 2024-07-11 16:52:22 发布

阅读量2.2k

点赞数

分类专栏：数据挖掘文章标签：机器学习 python 数据挖掘算法

本文链接：https://blog.csdn.net/qq_47203885/article/details/110313057

版权

数据挖掘专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本文介绍了集成学习的基本概念，包括bagging、boosting和stacking等方法，并对比了GBDT、XGBoost及LightGBM的特点与应用场景。通过具体示例展示了如何使用LightGBM进行模型训练、预测及参数优化。

摘要由CSDN通过智能技术生成

集成学习——介绍

在集成学习中，我们会训练多个模型（通常称为弱学习器）解决相同的问题，并将它们结合起来以获得更好的结果。最重要的假设是：当弱模型被正确组合时，我们可以得到更精确和/或更鲁棒的模型。

有自助聚合（bagging）、提升法（boosting）、堆叠法（stacking）以及许多其它的基础集成学习模型

常见的三种集成学习模型

bagging——可以并行执行，每一棵树权重是一样的
- 随机森林
boosting——串行执行的，后一棵树学习的是前一棵树模型的error（误差）
- gbdt、xgboost、lightgbm
stacking
- gbdt+lr （lr逻辑回归）
- xgboost+lr（做推荐的时候经常使用）
  - xgboost 做特征交叉
  - xgboost预测过程中使用到的特征组合+原始特征---->给到lr做回归预测

gbdt < xgboost < lightgbm

GBDT 速度慢，准确性差
xgboost——梯度提升决策树模型
- 不支持直接导入类别型变量，需要预先对类别型变量做独热编码等处理
- XGBoost使用的是pre-sorted算法，能够更精确的找到数据分隔点。
  - 首先，对所有特征按数值进行预排序。
  - 其次，在每次的样本分割时，用O(# data)的代价找到每个特征的最优分割点。
  - 最后，找到最后的特征以及分割点，将数据分裂成左右两个子节点。
  这种pre-sorting算法能够准确找到分裂点，但是在空间和时间上有很大的开销
lightgbm
- 可以直接导入类别型变量（导入前需要将字符型转变成整数型，并且需要声明类别行特征的字段名），它没有对类别型特征进行独热编码，因此速度比独热编码快得多
- LightGBM使用的是histogram算法，占用的内存更低，数据分隔的复杂度更低。其思想是将连续的浮点特征离散成k个离散值，并构造宽度为k的Histogram。然后遍历训练数据，统计每个离散值在直方图中的累计统计量。在进行特征选择时，只需要根据直方图的离散值，遍历寻找最优的分割点

sklearn接口形式的LightGBM示例

import lightgbm as lgb
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 加载数据
iris = load_iris()
data = iris.data
target = iris.target
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)
# 创建模型，训练模型
gbm = lgb.LGBMRegressor(objective='regression', num_leaves=31, learning_rate=0.05, n_estimators=20)
gbm.fit(X_train, y_train, eval_set=[(X_test, y_test)], eval_metric='l1', early_stopping_rounds=5)
# 测试机预测
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration)
# 模型评估
print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5)
# feature importances
print('Feature importances:', list(gbm.feature_importances)) 
# 网格搜索，参数优化
estimator = lgb.LGBMRegressor(num_leaves=31)
param_grid = {'learning_rate': [0.01, 0.1, 1],'n_estimators': [20, 40]}
gbm = GridSearchCV(estimator, param_grid)
gbm.fit(X_train, y_train)
print('Best parameters:', gbm.best_params_)

原生形式使用lightgbm

import lightgbm as lgb
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
data = iris.data
target = iris.target
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2) 
# 创建成lgb特征的数据集格式
lgb_train = lgb.Dataset(X_train, y_train)
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)
# 将参数写成字典下形式
params = {'task': 'train',
          'boosting_type': 'gbdt',  # 设置提升类型 
          'objective': 'regression',  # 目标函数 
          'metric': {'l2', 'auc'},  # 评估函数  
          'num_leaves': 31,  # 叶子节点数   
          'learning_rate': 0.05,  # 学习速率   
          'feature_fraction': 0.9,  # 建树的特征选择比例   
          'bagging_fraction': 0.8,  # 建树的样本采样比例  
          'bagging_freq': 5,  # k 意味着每 k 次迭代执行bagging  
          'verbose': 1  # <0 显示致命的, =0 显示错误 (警告), >0 显示信息
         } 
# 训练
cv and traingbm = lgb.train(params, lgb_train, num_boost_round=20, valid_sets=lgb_eval, early_stopping_rounds=5) 
# 保存模型到文件
gbm.save_model('model.txt')
# 预测数据集
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration) 
# 评估模型
print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5)