一.实验标题
利用鸢尾花数据集实现knn分类算法
二.实验准备
安装需要的库,包括Numpy,pandas,mglearn,sklearn
使用Python3,在Jupyter notebook环境下
安装代码:
pip3 install numpy pandas scikit-learn mglearn jupyter
三.算法内容
采用百度百科解释:
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
四.实验内容
由于鸢尾花(iris)数据集在scikit-learn的datasets的模块中,故调用load_iris函数可加载数据,但是数据不一定满足要求,利用散点图来观察数据:
import mglearn
import pandas as pd
from sklearn.datasets import load_iris
iris_dataset = load_iris()
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(iris_dataset['data'],iris_dataset['target'],random_state = 0)
iri