咱们来一起学习一下K近邻
(k-nearest neighbors,简称KNN)算法的基本原理~
基本思想
首先来看这样一幅图:
我们根据涂色样本点和未涂色样本点 X 的距离给涂色样本点编号1-6,即:1号样本点距离X最近,其余次之。
那么问题来了:样本点 X 应该属于哪种颜色呢?是蓝色还是绿色?
其实,我们可以根据 X 的相邻样本点来判定。例如,和 X 距离最近的三个样本点中绿色占多数,那么 X 就属于为绿色;和 X 距离最近的 5 个样本点中蓝色占多数,那么 X 就属于蓝色。
这种解决问题的思路正是 K 近邻算法的基本思想:根据 K 个近邻样本的 y 值来预测自身的 y 值
。具体到上面例子中的 y 值就是样本点的颜色。
K 近邻是监督学习中比较简单的一种算法,它既可以解决分类问题,也可以解决回归问题。
上面的涂色问题本质上就是利用 K 近邻算法给颜色未知的样本进行分类。颜色已知的样本属于训练样本,颜色未知的样本属于测试样本。
我们已经知