机器学习分类算法的背后是统计。
针对分类问题,python的sklearn库中有很多分类器,例如K近邻、朴素贝叶斯、决策树和随机森林。在对样本做分类之前,还需要很多准备工作,而且在一次训练当中,对样本特征的处理往往占了超过80%的时间,这是因为只有获得了“好”数据,才能有“好”结果。分类器训练流程如下:
1.获取数据集并总览;
2.理解每个特征的含义并用不同方法处理缺失数据;
3.分析数据关系(找出特征之间或特征与结果之间的关系,将这种关系可视化,往往做报告时用到);
4.数据预处理的方法(标准化、归一化、降维);
5.特征工程(对数据进行特征提取)
6.超参数调试与训练分类器;
7.评估分类器准确性;
本文旨在基于iris数据集完整地过一遍分类器训练流程。
一、数据获取&总览
#1.read datasets :iris
from sklearn.datasets import load_iris
import pandas as pd
iris = load_iris()
iris_data = pd.DataFrame(iris.data)
iris_data.columns = iris.feature_names
#观测数据前5行
iris_data.head()
#显示数据集中数据量可以清楚看到数据集是否缺失
iris_data.info()
#对数据信息进行描述包括每列对应的数量、方差平均值
iris_data.describe()
二、理解每个特征的含义并用不同方法处理缺失数据
<