以代码为导向的knn步骤:
1.数据集x,y赋值,x为特征数据,y为分类标签数值化数据
2.使用train_test_split函数划分训练集测试集x_train,x_test,y_train,y_test
3.计算测试集中每个样本和训练集中的每个样本的距离(一般是欧氏距离)
4.对距离进行排序,提取前k小的样本的索引值
5.根据索引值获得这k个样本的分类标签
6.计算k个样本中各标签的数量,选择比例最多的标签作为该样本的分类
具体代码(来自github)
from __future__ import print_function, division
import numpy as np
import math
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split # 切分数据集为训练集和测试集
from sklearn.metrics import accuracy_score # 计算分类预测的准确率
class KNN():
""" K Nearest Neighbors classifier.
k近邻分类器
输入参数:
-----------
k: int
选择的近邻的个数
"""
def __init__(self, k=