通过GBDT组合的特征作为LR的输入

scikit-learn中的apply() 函数有什么作用?

在最新版本的scikit-learn中,gradient boosting新增了apply()方法。如图:

请问,这个函数功能是和 facebook使用的 GBDT + LR 是类似的么?

如果类似,请问该怎么利用好这个函数? 或者如何使得它的效果和facebook的方法一样?


作者:知乎用户
链接:https://www.zhihu.com/question/39254529/answer/80440989
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

我觉得你看这个就可以了。 Feature transformations with ensembles of trees
讲的已经很详细了,我的理解是,apply可以把特征转换到一个更高维空间形成稀疏矩阵,然后就可以用线性模型了。这个思想和SVM里的核函数有点类似。
你看看它的代码:


至于这个函数怎么用,你看看它自带的例子,效果比一般的rf/gbdt要好。

ROC曲线上来看,GBT+LR的效果是最好的。


我自己不用Python,不过推荐你用xgboost里xgboost.Booster的predict方法并将 pred_leaf设置成TRUE,得到的结果应该是一样的,而且应该更好。因为xgboost自带一定的regularization而且利用了二阶泰勒展开的信息,所以学出来的feature应该会更好一些。因为Boosting本身就是一个学feature的过程,Friedman自己把Boosting过程看作是Additive Logistic Regression。其实得到的矩阵可以理解为很多Categorical Variable的不同Level,One-Hot Encoding展开了就是稀疏矩阵
另外也要看你GBDT后面用什么模型,如果是Logistic Regression就One-Hot Encoding,如果后面是LibFFM,就直接用index,这样Variance应该还会小一些。


import numpy as np
np.random.seed(10)

import matplotlib.pyplot as plt

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import (RandomTreesEmbedding, RandomForestClassifier,
                              GradientBoostingClassifier)
from sklearn.preprocessing import 
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值