sklearn实现决策树

最新推荐文章于 2022-08-08 01:08:06 发布

码农的世界，你不懂

最新推荐文章于 2022-08-08 01:08:06 发布

阅读量175

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/u010395024/article/details/103885250

版权

本文详细介绍了如何利用Python中的sklearn库构建和训练决策树模型。从数据预处理到模型构建，再到模型评估，每个步骤都有清晰的解释和代码示例，帮助读者理解决策树的工作原理并实际操作。

摘要由CSDN通过智能技术生成

决策树
         决策树是一种用于分类和回归的非参数监督学习方法。目标是通过学习从数据特征推断出的简单决策规则，创建一个预测目标变量值的模型。

    决策树的优点:
1）易于理解和解释。树木可以被可视化；

         2）只需要很少的数据准备，数据可以不规范化，但是需要注意的是，决策树不能有丢失的值；

         3）使用该树的花费是用于训练树的数据点个数的对数。

         4）能够处理多输出问题。

         5）使用白盒模型。如果给定的情况在模型中是可观察到的，那么对这种情况的解释很容易用布尔逻辑来解释。相比之下，在黑盒模型中(例如，在人工神经网络中)，结果可能更难以解释。

         6）可以使用统计测试来验证模型。

   决策树的缺点:
         1）容易过拟合。为了避免这个问题，可以进行树的剪枝、或在叶节点上设置所需的最小样本数量或设置树的最大深度。

         2）决策树是不稳定的，数据中的微小变化可能会导致生成完全不同的树。在集成中使用决策树可以缓解这个问题。

         3）有些概念很难学，因为决策树不容易表达它们，例如异或奇偶性或多路复用问题。

         4）如果某些类别占主导地位，决策树学习器就会创建有偏见的树。因此，建议在与决策树匹配之前平衡数据集。

使用sklearn实现决策树
sklearn实现决策树的核心代码：

#1）sklearn实现二分类
from sklearn import tree
X=[[0,0],[1,1]]
Y=[0,1]
clf=tree.DecisionTreeClassifier()
clf=clf.fit(X,Y)
print(clf.predict([[2,2]]))#预测属于哪个类
print(clf.predict_proba([[2,2]]))#预测属于每个类的概率

#2）sklearn实现多分类
from sklearn.datasets import load_iris
from sklearn import tree

iris=load_iris()
clf=tree.DecisionTreeClassifier