knn算法是监督学习算法,最简单的机器学习算法。
总结起来,给定一个预测目标,接下来计算预测预测目标和所有样本之间的距离或者相似度,然后选择距离最近的前K个样本,然后通过这些样本来投票决策。
实现一个KNN算法,我们需要具备四个方面的信息:
1 任何的算法的输入一定是数量化的信息(叫做特征),需要把现实生活中的物体通
过数字化的特征来进行描述
2 由于KNN是监督学习算法,所以需要提前标注好的样本
3 要计算两个样本之间的距离或者相似度,之后才能选出最相近的样本,最常用的
方法是求欧式距离
实现一个简单的knn算法代码如下
from sklearn import datasets #导入数据集
from collections import Counter # 为了做投票
from sklearn.model_selection import train_test_split
import numpy as np
# 导入iris数据
iris = datasets.load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=2003) #划分数据
def euc_dis(instance1, instance2):
"""
计算两个样本instance1和instance2之间的欧式距离
instance1: 第一个样本, array型
instance2: 第二个样本, array型
"""
# TODO
dist = np.sqrt(sum((instance1 - instance2) ** 2))
return dist