K近邻算法非常直观其很容易理解,具体的算法在 机器学习算法原理及实现——KNN算法中已经介绍过,有感兴趣的同学可以去看看。本文将介绍如何用k近邻分类算法对鸢尾花卉种类进行区分。
K近邻分类使用数据简介
本次使用的数据为鸢尾花卉数据,当下作为教材般的数据保存在sklearn的datasets中,获取数据的代码如下:
from sklearn.datasets import load_irisiris_data = load_iris()print("本次下载的iris数据有:%d 行,%d 列" % (iris_data.data.shape[0],iris_data.data.shape[1]))print(iris_data.DESCR)
对于数据挖掘者来说,查看数据说明是一个很好的习惯,本次下载的iris数据有:150 行,4 列,通过描述可以看出150个样本分布在3个不同的种类上,每个样本都有4个数据,分别是花瓣长度、花瓣的宽度、花萼的长度 和花萼的宽度。