Sklearn使用实践之决策树

最新推荐文章于 2023-08-12 12:12:41 发布

Laurel1115

最新推荐文章于 2023-08-12 12:12:41 发布

阅读量415

点赞数 1

分类专栏： sklearn使用实践文章标签：分类决策树 sklearn

本文链接：https://blog.csdn.net/Laurel1115/article/details/87940886

版权

本文介绍了如何使用Sklearn的DecisionTreeClassifier进行分类决策树实践，包括理解数据集、加载数据、数据集拆分以及模型预测。通过测试criterion和splitter参数的不同取值，发现使用基尼系数和最优划分时模型性能更优。

摘要由CSDN通过智能技术生成

Sklearn库利用CART算法实现了分类决策树和回归决策树，这篇将结合具体的小例子使用实践Sklearn中DecisionTreeClassifier决策树对应的API

一、分类决策树DecisionTreeClassifier使用实践

（一）、了解数据集

sklearn官网分类决策树的API链接为 https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier

数据集使用sklearn自带的莺尾花数据集，一共有150个数据，有三种类别，每种类别中分别有50个数据，每个数据有四个属性，分别是萼片长度，萼片宽度，花瓣长度，花瓣宽度，具体说明如下图
在这里插入图片描述
查看数据集具体信息：

（二）、编写加载数据集的函数

from sklearn import datasets
def load_data():
    iris=datasets.load_iris() # scikit-learn 自带的 iris 数据集
    X_iris=iris.data
    y_iris=iris.target
    return X_iris,y_iris

（三）、拆分数据集

利用分层采样将原始数据拆分成训练集和测试集，使用分层采样的原因是原始数据集的前50个类别均为0，中间50个均为1，后50个均为2，如果不采用分层采样，就不能保证数据无偏了

from sklearn.model_selection import train_test_split
def split_data

最低0.47元/天解锁文章

Laurel1115

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Sklearn使用实践之决策树

Sklearn使用实践之决策树一、分类决策树DecisionTreeClassifier使用实践（一）、了解数据集（二）、编写加载数据集的函数（三）、拆分数据集（四）、使用分类决策树函数预测二、测试参数的不同取值对模型性能的影响（一）criterion的取值测试（二）splitter的取值测试Sklearn库利用CART算法实现了分类决策树和回归决策树，这篇将结合具体的小例子使用实践Sklear...
复制链接

扫一扫

专栏目录