数据挖掘入门系列教程(四)之基于scikit-lean决策树处理Iris
加载数据集
数据特征
训练
随机森林
调参工程师
结尾
数据挖掘入门系列教程(四)之基于scikit-lean决策树处理Iris
在上一篇博客,我们介绍了决策树的一些知识。如果对决策树还不是很了解的话,建议先阅读上一篇博客,在来学习这一篇。
本次实验基于scikit-learn中的Iris数据。说了好久的Iris,从OneR到决策树,那么Iris到底长啥样呢?
加载数据集
首先我们还是需要先加载数据集,数据集来自scikit自带的iris数据集,数据集的内容可以参考以前的博客,这里就不在赘述。
首先让我们从scikit-learn中加载数据集。
from sklearn.datasets import load_iris
dataset = load_iris()
data = dataset.data
target = dataset.target
然后我们再使用pandas将数据进行格式化以下,添加Iris的属性到数据集中。
import numpy as np
import pandas as pd
data = pd.DataFrame(data,columns=["sepal_length","sepal_width","petal_length","petal_width"])
data["class"] = target
data的数据如下所示:
class代表类别。其他的就是Iris的属性了。
数据特征
这里我们主要是用画图来看一看Iris数据集的特征。本来以为画图就matpotlib就行了,但是没想到有seaborn这个好使用的库,来自B站up主的提示。使用的库如下:
matplotlib
seaborn
首先我们画散点图:
import matplotlib.pyplot as plt
import seaborn as sb
# data.dropna()去除里面的none元素
sb.pairplot(data
数据挖掘入门系列教程(四)之基于scikit-lean实现决策树
最新推荐文章于 2024-07-21 01:39:27 发布
本文是数据挖掘入门系列教程的第四部分,讲解如何使用scikit-learn库构建决策树模型,以处理Iris数据集。通过加载数据、数据特征分析、模型训练、随机森林及参数调整,展示决策树在分类任务中的应用。
摘要由CSDN通过智能技术生成