通过GBDT组合的特征作为LR的输入

最新推荐文章于 2024-07-16 17:20:29 发布

bettesu

最新推荐文章于 2024-07-16 17:20:29 发布

阅读量7.7k

点赞数 1

本文链接：https://blog.csdn.net/bettesu/article/details/64444174

版权

探讨如何在scikit-learn中应用apply()函数，结合GBDT生成的特征来增强逻辑回归（LR）的预测能力，寻求实现与Facebook方法相媲美的效果。

摘要由CSDN通过智能技术生成

scikit-learn中的apply() 函数有什么作用？

在最新版本的scikit-learn中，gradient boosting新增了apply()方法。如图：

请问，这个函数功能是和 facebook使用的 GBDT + LR 是类似的么？

如果类似，请问该怎么利用好这个函数？或者如何使得它的效果和facebook的方法一样？

作者：知乎用户
链接：https://www.zhihu.com/question/39254529/answer/80440989
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

我觉得你看这个就可以了。 Feature transformations with ensembles of trees
讲的已经很详细了，我的理解是，apply可以把特征转换到一个更高维空间形成稀疏矩阵，然后就可以用线性模型了。这个思想和SVM里的核函数有点类似。
你看看它的代码：

至于这个函数怎么用，你看看它自带的例子，效果比一般的rf/gbdt要好。

ROC曲线上来看，GBT+LR的效果是最好的。

我自己不用Python，不过推荐你用xgboost里xgboost.Booster的predict方法并将 pred_leaf设置成TRUE，得到的结果应该是一样的，而且应该更好。因为xgboost自带一定的regularization而且利用了二阶泰勒展开的信息，所以学出来的feature应该会更好一些。因为Boosting本身就是一个学feature的过程，Friedman自己把Boosting过程看作是Additive Logistic Regression。其实得到的矩阵可以理解为很多Categorical Variable的不同Level，One-Hot Encoding展开了就是稀疏矩阵。
另外也要看你GBDT后面用什么模型，如果是Logistic Regression就One-Hot Encoding，如果后面是LibFFM，就直接用index，这样Variance应该还会小一些。

import numpy as np
np.random.seed(10)

import matplotlib.pyplot as plt

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import (RandomTreesEmbedding, RandomForestClassifier,
                              GradientBoostingClassifier)
from sklearn.preprocessing import