k近邻是一种常用的监督学习方法,工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于k个“邻居”的信息来进行预测。
在做分类预测时,一般采用“投票法”,即选择k个样本中出现最多的类别,作为预测样本。在做回归任务时,一般采用“平均法”,即选择k个样本的样本输出的平均值,作为回归预测值。
算法思想:
在训练集中数据和标签已知的情况下,输入样本数据,将样本数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该样本数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:
(1)计算样本数据与各个训练数据之间的距离;
(2)按照距离的递增关系进行排序;
(3)选取距离最小的K个点;
(4)确定前K个点所在类别的出现频率;
(5)返回前K个点中出现频率最高的类别作为样本数据的预测分类。
https://cuijiahua.com/blog/2017/11/ml_1_knn.html
https://www.cnblogs.com/pinard/p/6061661.html