GBDT原理及利用GBDT构造新的特征-Python实现

最新推荐文章于 2023-12-26 17:51:23 发布

Britesun

最新推荐文章于 2023-12-26 17:51:23 发布

阅读量533

点赞数

分类专栏：机器学习深度学习文章标签： GBDT

本文链接：https://blog.csdn.net/qq_34807908/article/details/84110502

版权

本文介绍了GBDT（Gradient Boosting Decision Tree）的基本原理，包括其作为Boosting方法的背景，以及在回归和分类任务中的应用。重点讨论了如何利用GBDT生成FFM（Field-aware Factorization Machines）的特征，并提供了Python实现的简单示例，展示了如何结合libFFM和逻辑回归进行特征转换。总结中提到，GBDT在特征工程中用于创建区分度高的特征，常与LR、FM等模型结合使用。

摘要由CSDN通过智能技术生成

GBDT原理及利用GBDT构造新的特征-Python实现

背景
GBDT构建新的特征思想
GBDT与LR融合方案
源码内容
- generate GBDT features
- generate features for FFM
Python实现
总结
References

1. 背景

1.1 Gradient Boosting

Gradient Boosting是一种Boosting的方法，它主要的思想是，每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能（一般为拟合程度+正则项），认为损失函数越小，性能越好。而让损失函数持续下降，就能使得模型不断改性提升性能，其最好的方法就是使损失函数沿着梯度方向下降（讲道理梯度方向上下降最快）。

Gradient Boost是一个框架，里面可以套入很多不同的算法。

1.2 Gradient Boosting Decision Tree

每一次建立树模型是在之前建立模型损失函数的梯度下降方向。即利用了损失函数的负梯度在当前模型的值作为回归问题提升树算法的残差近似值，去拟合一个回归树。

具体算法算理：GBDT原理-Gradient Boosting Decision Tree

1.3 GBDT应用-回归和分类

GBDT分类：每一颗树拟合当前整个模型的损失函数的负梯度，构建新的树加到当前模型中形成新模型，下一棵树拟合新模型的损失函数的负梯度。下面是其在Python的sklearn包下简单调用方法。

from sklearn import ensemble
clf = ensemble.GradientBoostingClassifier()
gbdt_model = clf.fit(X_train, y_train)  # Training model
predicty_x = gbdt_model.predict_proba(test1217_x)[:, 1]  # predict: probablity of 1


# 包含的参数
# loss = loss, learning_rate = learning_rate, n_estimators = n_estimators,
# min_samples_split = min_samples_split,
# min_samples_leaf = min_samples_leaf,
# min_weight_fraction_leaf = min_weight_fraction_leaf,
# max_depth = max_depth, init = init, subsample = subsample,
# max_features = max_features,
# random_state = random_state, verbose = verbose,
# max_leaf_nodes = max_leaf_nodes, warm_start = warm_start,


GBDT回归：每一颗树拟合当前整个模型的残差，构建新的树加到当前模型中形成新模型，下一棵树拟合新模型的损失函数的负梯度。