sklearn决策树算法总结

本文主要总结了sklearn中决策树算法的使用,包括`DecisionTreeClassifier`和`DecisionTreeRegressor`的主要参数和接口。重点讲解了`criterion`、`splitter`、`random_state`、`max_depth`、`min_samples_split`、`min_samples_leaf`等参数的作用,以及如何通过调整这些参数来防止过拟合。此外,还提到了回归树与分类树的区别,如回归树没有`class_weight`参数。
摘要由CSDN通过智能技术生成

决策树算法

理论部分可以参考西瓜书,本文主要总结一下决策树算法在sklearn中的一些基本用法。

sklearn.tree

使用决策树的流程

from sklearn import tree             
clf = tree.DecisionTreeClassifier()    #实例化
clf.fit(x_train,y_train)               #训练模型
result = clf.score(x_test,y_test)      #测试

sklearn中的决策树算法都包含在tree这个模块中,使用时导入即可。

from skearn import tree

sklearn中包含了五个模块

Column 1 Column 2
tree.DecisionTreeClassifier 分类树
tree.DecisionTreeRegressor 回归树
tree.export_graphviz 将生成的树导出为DOT格式
tree.ExtraTreeClassifier 高随机版本的分类树
tree.ExtraTreeClassifier 高随机版本的回归树

1.tree.DecisionTreeClassifier

tree.DecisionTreeClassifier官网介绍
在这里插入图片描述
DecisionTreeClassifier的参数很多,其中比较重要的有以下几个:

  • criterion
  • splitter & random_state
  • max_depth
  • min_samples_split & min_samples_leaf
  • max_features & min_impurity_decrease
  • class_weight & min_weight_fraction_leaf

下边分别介绍这几个参数的用法

1.1 criterion

在构建决策树的时候,我们往往希望得到一棵最佳的树,而这个最佳的衡量指标通常指不纯度。一般来说,不纯度越低,决策树对训练数据拟合的越好。
不纯度有两种计算方法:信息熵Entropy和Gini指数
e n t r o p y ( t ) = − ∑ i = 0 n P i l n ( P i ) G i n i ( t ) = 1 − ∑ i = 0 n P i 2 entropy(t)=-\sum_{i=0}^{n}P_iln(P_i) \\ Gini(t)=1-\sum_{i=0}^{n}P_i^2 entropy(t)=

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值