LR+GBDT的工作原理

简介

因为梯度提升树训练过于复杂,而逻辑回归过于简单,只能发现线性简单,而对于交互项和非线性关系没有辨识度。
于是用梯度提升树训练模型,基于树模型,就有了交叉和非线性,然后把叶子节点放到逻辑回归模型里,解决了逻辑回归算法的缺点。

简单来说,就是将梯度提升树的输出作为逻辑回归的输入,最终得到逻辑回归模型。

如梯度提升树中有三棵树, T 1 T_1 T1 T 2 T_2 T2 T 3 T_3 T3,每棵树的叶子节点树为4。设第 i i i棵树的第 j j j个叶子节点为 L i j L_{ij} Lij

梯度提升树模型训练完成后,样本 X X X经过 T 1 T_1 T1后落在了第3个节点上,即 L 13 L_{13} L13,样本在 T 1 T_1 T1的向量表达为 ( 0 , 0 , 1 , 0 ) (0, 0, 1, 0) (0,0,1,0)。随后样本经过 T 2 T_2 T2后落在了第一个节点,经过 T 3 T_3 T3后落在了第4个节点,即 L 21 L_{21} L21 L 34 L_{34} L34,向量表达分别为 ( 1 , 0 , 0 , 0 ) (1, 0, 0, 0) (1,0,0,0) ( 0 , 0 , 0 , 1 ) (0, 0, 0, 1) (0,0,0,1)。则样本在梯度提升树模型上的表达为 ( 0 , 0 , 1 , 0 , 1 , 0 , 0 , 0 , 0 , 0 , 0 , 1 ) (0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1) (0,0,1,0,1,0,0,0,0,0,0,1),随后输入逻辑回归模型参于训练或者预测。

实现

from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import GradientBoostingClassifier


gbm1 = GradientBoostingClassifier(n_estimators=50, random_state=10, subsample=0.6, max_depth=7,
                                  min_samples_split=900)
gbm1.fit(X_train, Y_train)
train_new_feature = gbm1.apply(X_train)
train_new_feature = train_new_feature.reshape(-1, 50)

enc = OneHotEncoder()

enc.fit(train_new_feature)

# # 每一个属性的最大取值数目
# print('每一个特征的最大取值数目:', enc.n_values_)
# print('所有特征的取值数目总和:', enc.n_values_.sum())

train_new_feature2 = np.array(enc.transform(train_new_feature).toarray())

注:梯度提升树模型单独训练。

原理

d d d为树的深度,则树可以将数据划分为 2 d 2^d 2d个不相交的子空间,多棵树就有多种划分。
这里把样本在梯度提升树的子空间序号的one-hot编码作为逻辑回归模型的输入。每个子空间都是一类数据,用是否在子空间的指示标签来代表子空间的所有数据。

最后用所有子空间影响力的和来计算逻辑回归模型最后输出的概率值。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值