本文继续以Avazu-CTR赛题为场景,采用GBDT(梯度提升树)与LR(逻辑回归)相结合的方法来完成CTR预估任务;
本文的源码托管于我的Github:PnYuan - Kaggle_CTR,欢迎查看交流。
1.GBDT-LR方案
集成模型如GBDT、XGBoost等,可被用于原始特征的转换与组合,从而自动构建出新的特征用于改进数据挖掘任务。这里,我们采用业界常用的GBDT-LR方案来完成CTR预估任务,其中GBDT的作用正如上所述。整个方案的模型示意图如下:
这里,GBDT的所有输出叶子节点构成新特征向量(上图中Transform new Features
),每条原始数据样本可由GBDT转化为新的数据条目(上图中new Feature Vector
)。经过良好训练后的GBDT,可视为一系列优质特征处理规则(转换、组合、过滤…&#