决策树之特征选择

实际工作中,做好训练集/测试集,用训练集跑完一个模型之后,需要不断对该模型进行优化并提高auc,故需要调整模型参数或新增一些维度特征,这样每次都要重新制作训练集数据,工作量庞大。

这里介绍使用spark决策树C4.5提前进行特征选择,减少模型迭代工作量。

下图是原始操作流程,因为每次都会新挖掘出一些特征,需要重复将新挖掘特征与原始特征做成新的训练集,训练出新的模型并与原始model进行auc比对,开发周期性长,工作量大

 

640?wx_fmt=png


决策树进行特征选择

使用spark决策树进行特征选择,可以找出原始model阈值特征

(这步需要不断尝试跟经验积累)

640?wx_fmt=png

特征选择(降维)

640?wx_fmt=png

1、将阈值特征与每次新挖掘的新特征(n维)组合成n+1维新特征组合

2、使用C4.5(决策树)计算出特征重要性,新增特征与阈值特征重要性进行比对

3、新挖掘特征大于阈值特征的保留(对模型有提高作用),小于的特征丢弃


spark代码

640?wx_fmt=png


测试数据

链接:https://pan.baidu.com/s/1aKQdLOr2JO6hUaG1_HtJhg 

提取码:ohjk 

推荐阅读:

Spark特征工程

Spark推荐系统

机器学习中一些基础的数学

flume 1.8+Hadoop2.0

spark-streaming 连接kafka

Docker上搭建Spark集群

idea本地调试spark,hive,kafka

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值