GBDT原理及利用GBDT构造新的特征-Python实现

本文介绍了GBDT(Gradient Boosting Decision Tree)的基本原理,包括其作为Boosting方法的背景,以及在回归和分类任务中的应用。重点讨论了如何利用GBDT生成FFM(Field-aware Factorization Machines)的特征,并提供了Python实现的简单示例,展示了如何结合libFFM和逻辑回归进行特征转换。总结中提到,GBDT在特征工程中用于创建区分度高的特征,常与LR、FM等模型结合使用。
摘要由CSDN通过智能技术生成

GBDT原理及利用GBDT构造新的特征-Python实现

1. 背景

1.1 Gradient Boosting

Gradient Boosting是一种Boosting的方法,它主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能(一般为拟合程度+正则项),认为损失函数越小,性能越好。而让损失函数持续下降,就能使得模型不断改性提升性能,其最好的方法就是使损失函数沿着梯度方向下降(讲道理梯度方向上下降最快)。

Gradient Boost是一个框架,里面可以套入很多不同的算法。

1.2 Gradient Boosting Decision Tree

每一次建立树模型是在之前建立模型损失函数的梯度下降方向。即利用了损失函数的负梯度在当前模型的值作为回归问题提升树算法的残差近似值,去拟合一个回归树。

具体算法算理:GBDT原理-Gradient Boosting Decision Tree

1.3 GBDT应用-回归和分类

GBDT分类:每一颗树拟合当前整个模型的损失函数的负梯度,构建新的树加到当前模型中形成新模型,下一棵树拟合新模型的损失函数的负梯度。下面是其在Python的sklearn包下简单调用方法。

from sklearn import ensemble
clf = ensemble.GradientBoostingClassifier()
gbdt_model = clf.fit(X_train, y_train)  # Training model
predicty_x = gbdt_model.predict_proba(test1217_x)[:, 1]  # predict: probablity of 1


# 包含的参数
# loss = loss, learning_rate = learning_rate, n_estimators = n_estimators,
# min_samples_split = min_samples_split,
# min_samples_leaf = min_samples_leaf,
# min_weight_fraction_leaf = min_weight_fraction_leaf,
# max_depth = max_depth, init = init, subsample = subsample,
# max_features = max_features,
# random_state = random_state, verbose = verbose,
# max_leaf_nodes = max_leaf_nodes, warm_start = warm_start,

GBDT回归:每一颗树拟合当前整个模型的残差,构建新的树加到当前模型中形成新模型,下一棵树拟合新模型的损失函数的负梯度。

贝叶斯优化是一种优化算法,用于寻找一个黑箱函数的最大值或最小值。在机器学习领域,贝叶斯优化可以用于对模型的超参数进行优化。 在lightgbm模型中,特征提取是一个重要的步骤。贝叶斯优化可以用来优化特征提取的参数,例如特征数、特征采样率等。 下面是一个使用贝叶斯优化对lightgbm特征进行提取的例子: ```python import lightgbm as lgb from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from bayes_opt import BayesianOptimization # 加载数据集 data = load_breast_cancer() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42) # 构造lightgbm模型,用于特征提取 def lgb_cv(num_leaves, feature_fraction, bagging_fraction, max_depth, min_split_gain, min_child_weight): params = {'objective': 'binary', 'metric': 'auc', 'num_leaves': int(num_leaves), 'feature_fraction': max(min(feature_fraction, 1), 0), 'bagging_fraction': max(min(bagging_fraction, 1), 0), 'max_depth': int(max_depth), 'min_split_gain': min_split_gain, 'min_child_weight': min_child_weight, 'verbose': -1, 'seed': 42} cv_result = lgb.cv(params, lgb.Dataset(X_train, y_train), num_boost_round=1000, nfold=5, stratified=False, shuffle=True, metrics=['auc'], early_stopping_rounds=50) return cv_result['auc-mean'][-1] # 定义贝叶斯优化的参数空间 lgbBO = BayesianOptimization(lgb_cv, {'num_leaves': (24, 45), 'feature_fraction': (0.1, 0.9), 'bagging_fraction': (0.8, 1), 'max_depth': (5, 15), 'min_split_gain': (0.001, 0.1), 'min_child_weight': (5, 50)}) # 进行贝叶斯优化 lgbBO.maximize(init_points=5, n_iter=25, acq='ei') # 根据优化的结果提取特征 params = lgbBO.max['params'] params['num_leaves'] = int(params['num_leaves']) params['max_depth'] = int(params['max_depth']) params['verbose'] = -1 params['objective'] = 'binary' params['metric'] = 'auc' params['boosting_type'] = 'gbdt' params['seed'] = 42 gbm = lgb.train(params, lgb.Dataset(X_train, y_train), num_boost_round=1000, verbose_eval=False) # 提取特征的重要性 feature_importance = gbm.feature_importance() feature_names = data.feature_names # 打印特征的重要性 for feature_name, importance in zip(feature_names, feature_importance): print(feature_name, ':', importance) ``` 上面的代码中,我们使用了BayesianOptimization库实现了贝叶斯优化。定义了一个lgb_cv函数用于训练lightgbm模型,并返回最终的AUC值。然后定义了一个参数空间,包括num_leaves、feature_fraction、bagging_fraction、max_depth、min_split_gain和min_child_weight等参数。接着,我们使用maximize函数进行贝叶斯优化,初始化5个点,迭代25次,使用ei作为acq函数。 最后,我们根据优化的结果提取特征,并打印出每个特征的重要性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值