基于iris数据集测试不同机器学习分类器的准确率(上)

机器学习分类算法的背后是统计。

针对分类问题,python的sklearn库中有很多分类器,例如K近邻、朴素贝叶斯、决策树和随机森林。在对样本做分类之前,还需要很多准备工作,而且在一次训练当中,对样本特征的处理往往占了超过80%的时间,这是因为只有获得了“好”数据,才能有“好”结果。分类器训练流程如下:

1.获取数据集并总览;
2.理解每个特征的含义并用不同方法处理缺失数据;
3.分析数据关系(找出特征之间或特征与结果之间的关系,将这种关系可视化,往往做报告时用到);
4.数据预处理的方法(标准化、归一化、降维);
5.特征工程(对数据进行特征提取)
6.超参数调试与训练分类器;
7.评估分类器准确性;

本文旨在基于iris数据集完整地过一遍分类器训练流程。

一、数据获取&总览

#1.read datasets :iris
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = pd.DataFrame(iris.data)
iris_data.columns = iris.feature_names

#观测数据前5行
iris_data.head()
#显示数据集中数据量可以清楚看到数据集是否缺失
iris_data.info()
#对数据信息进行描述包括每列对应的数量、方差平均值
iris_data.describe()

二、理解每个特征的含义并用不同方法处理缺失数据

<
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值