决策树分类器在Scikit-learn的使用小结

scikit-learn决策树算法库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归。本文详细介绍DecisionTreeClassifier 在python scikit-learn上的使用。包含数据读取,模块载入,模块使用,规则导出,模型保存,调参说明。
摘要由CSDN通过智能技术生成

scikit-learn决策树算法库介绍

  scikit-learn决策树算法库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归。分类决策树的类对应的是DecisionTreeClassifier,而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同,但是意义不全相同。
  本文详细介绍DecisionTreeClassifier 在python scikit-learn上的使用。
  包含数据读取,模块载入,模块使用,规则导出,模型保存,调参说明。

模块加载

import pandas as pd
from sklearn import tree

数据载入

#训练集数据读取
train = pd.read_csv('train.csv')
target='TRADER' # TRADER的值就是二元分类的输出(列名)
ID = 'USER_ID' 
train['TRADER'].value_counts() #类别计算

x_columns0 = [x for x in train.columns if x not in [target, ID]]
X = train[x_columns0]
y = train['TRADER']

#测试集数据读取
test = pd.read_csv('test.csv')
test['TRADER'].value_counts() #类别计算
x_columns1 = [x for x in test.columns if x not in [target, ID]]
x_test = test[x_columns1]
y_test = test['TRADER']

print ('数据读取完毕')

另外,读取excel格式会比csv格式的数据速度慢很多,至少在我这个数据集上是这样子的。csv用了不到5s,而excel读取花了1min+。

#引入tree模块,对应的参数设置将于后面提及
clf = tree.DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=7, max_leaf_nodes=None,
            m
  • 7
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值