机器学习入门实践——Iris 数据集 K 近邻方法建模预测鸢花种类
任务介绍:Iris 数据集,采用多分类 KNN 方法建模,通过鸢花外形数据预测鸢花种类。
一、Iris 数据介绍
鸢尾花数据集总共包含150行数据,包含4个特征值及1个目标值。特征值分别为:萼片长度、萼片宽度、花瓣长度、花瓣宽度。结果为三种不同品种的鸢尾花。
二、数据预处理
1、Iris 数据加载
from sklearn import datasets
iris = datasets.load_iris()
print(iris)
2、Iris 数据展示
# 打印特征值名称
print(iris.feature_names)
# 打印训练数据
print(iris.data)
# 打印结果值名称
print(iris.target_names)
# 打印结果数据
print(iris.target)
3、保存训练数据
X = iris.data
4、保存训练结果数据
y = iris.target
三、模型训练
k近邻法(k Nearest Neighbor)是一种用于分类和回归的非参数据建模方法。k近邻算法是最简单的机器学习算法之一。即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。(这就类似于现实生活中少数服从多数的思想)