基于iris数据集测试不同机器学习分类器的准确率（上）

最新推荐文章于 2024-04-29 13:51:30 发布

shubrewer

最新推荐文章于 2024-04-29 13:51:30 发布

阅读量1.5k

点赞数

分类专栏：从0开始的机器学习文章标签：机器学习 sklearn 决策树随机森林 python

本文链接：https://blog.csdn.net/shubrewer/article/details/124541286

版权

本文详细介绍了使用sklearn库在iris数据集上训练和评估分类器的过程，包括数据预处理、特征工程和超参数调试。通过K近邻、决策树和随机森林算法的实操，展示了在小规模且完整数据集上的分类效果。

摘要由CSDN通过智能技术生成

机器学习分类算法的背后是统计。

针对分类问题，python的sklearn库中有很多分类器，例如K近邻、朴素贝叶斯、决策树和随机森林。在对样本做分类之前，还需要很多准备工作，而且在一次训练当中，对样本特征的处理往往占了超过80%的时间，这是因为只有获得了“好”数据，才能有“好”结果。分类器训练流程如下：

1.获取数据集并总览；
2.理解每个特征的含义并用不同方法处理缺失数据；
3.分析数据关系（找出特征之间或特征与结果之间的关系，将这种关系可视化，往往做报告时用到）；
4.数据预处理的方法（标准化、归一化、降维）；
5.特征工程（对数据进行特征提取）
6.超参数调试与训练分类器；
7.评估分类器准确性；

本文旨在基于iris数据集完整地过一遍分类器训练流程。

一、数据获取&总览

#1.read datasets :iris
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = pd.DataFrame(iris.data)
iris_data.columns = iris.feature_names

#观测数据前5行
iris_data.head()
#显示数据集中数据量可以清楚看到数据集是否缺失
iris_data.info()
#对数据信息进行描述包括每列对应的数量、方差平均值
iris_data.describe()

二、理解每个特征的含义并用不同方法处理缺失数据