LR+GBDT的工作原理

最新推荐文章于 2023-05-05 00:31:43 发布

Dark-Rich

最新推荐文章于 2023-05-05 00:31:43 发布

阅读量1.4k

点赞数

分类专栏： Machine Learning 机器学习

本文链接：https://blog.csdn.net/tlzhatao/article/details/92797101

版权

机器学习同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

Machine Learning

23 篇文章 3 订阅

订阅专栏

简介

因为梯度提升树训练过于复杂，而逻辑回归过于简单，只能发现线性简单，而对于交互项和非线性关系没有辨识度。
于是用梯度提升树训练模型，基于树模型，就有了交叉和非线性，然后把叶子节点放到逻辑回归模型里，解决了逻辑回归算法的缺点。

简单来说，就是将梯度提升树的输出作为逻辑回归的输入，最终得到逻辑回归模型。

如梯度提升树中有三棵树， $T_1$ 、 $T_2$ 和 $T_3$ ，每棵树的叶子节点树为4。设第 $i$ 棵树的第 $j$ 个叶子节点为 $L_{ij}$ 。

梯度提升树模型训练完成后，样本 $X$ 经过 $T_1$ 后落在了第3个节点上，即 $L_{13}$ ，样本在 $T_1$ 的向量表达为 $(0, 0, 1, 0)$ 。随后样本经过 $T_2$ 后落在了第一个节点，经过 $T_3$ 后落在了第4个节点，即 $L_{21}$ 、 $L_{34}$ ，向量表达分别为 $(1, 0, 0, 0)$ 、 $(0, 0, 0, 1)$ 。则样本在梯度提升树模型上的表达为 $(0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1)$ ，随后输入逻辑回归模型参于训练或者预测。

实现

from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import GradientBoostingClassifier


gbm1 = GradientBoostingClassifier(n_estimators=50, random_state=10, subsample=0.6, max_depth=7,
                                  min_samples_split=900)
gbm1.fit(X_train, Y_train)
train_new_feature = gbm1.apply(X_train)
train_new_feature = train_new_feature.reshape(-1, 50)

enc = OneHotEncoder()

enc.fit(train_new_feature)

# # 每一个属性的最大取值数目
# print('每一个特征的最大取值数目:', enc.n_values_)
# print('所有特征的取值数目总和:', enc.n_values_.sum())

train_new_feature2 = np.array(enc.transform(train_new_feature).toarray())

注：梯度提升树模型单独训练。

原理

若 $d$ 为树的深度，则树可以将数据划分为 $2^d$ 个不相交的子空间，多棵树就有多种划分。
这里把样本在梯度提升树的子空间序号的one-hot编码作为逻辑回归模型的输入。每个子空间都是一类数据，用是否在子空间的指示标签来代表子空间的所有数据。

最后用所有子空间影响力的和来计算逻辑回归模型最后输出的概率值。

Dark-Rich

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
LR+GBDT的工作原理

简介因为梯度提升树训练过于复杂，而逻辑回归过于简单，只能发现线性简单，而对于交互项和非线性关系没有辨识度。于是用梯度提升树训练模型，基于树模型，就有了交叉和非线性，然后把叶子节点放到逻辑回归模型里，解决了逻辑回归算法的缺点。简单来说，就是将梯度提升树的输出作为逻辑回归的输入，最终得到逻辑回归模型。如梯度提升树中有三棵树，T1T_1T1、T2T_2T2和T3T_3T3，每棵树的叶子节点...
复制链接

扫一扫