Sklearn使用实践之决策树

本文介绍了如何使用Sklearn的DecisionTreeClassifier进行分类决策树实践,包括理解数据集、加载数据、数据集拆分以及模型预测。通过测试criterion和splitter参数的不同取值,发现使用基尼系数和最优划分时模型性能更优。
摘要由CSDN通过智能技术生成

Sklearn库利用CART算法实现了分类决策树和回归决策树,这篇将结合具体的小例子使用实践Sklearn中DecisionTreeClassifier决策树对应的API

一、分类决策树DecisionTreeClassifier使用实践

(一)、了解数据集

sklearn官网分类决策树的API链接为 https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier

数据集使用sklearn自带的莺尾花数据集,一共有150个数据,有三种类别,每种类别中分别有50个数据,每个数据有四个属性,分别是萼片长度,萼片宽度,花瓣长度,花瓣宽度,具体说明如下图
在这里插入图片描述
查看数据集具体信息:
在这里插入图片描述

(二)、编写加载数据集的函数

from sklearn import datasets
def load_data():
    iris=datasets.load_iris() # scikit-learn 自带的 iris 数据集
    X_iris=iris.data
    y_iris=iris.target
    return X_iris,y_iris

(三)、拆分数据集

利用分层采样将原始数据拆分成训练集和测试集,使用分层采样的原因是原始数据集的前50个类别均为0,中间50个均为1,后50个均为2,如果不采用分层采样,就不能保证数据无偏了

from sklearn.model_selection import train_test_split
def split_data
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值