KNN简介
KNN是监督学习算法,其主要思想就是近朱者赤,近墨者黑。找出新样本与训练数据的最近的K个实例,哪个类别的个数多,就把该样本判定为哪一类。
下面用这个图进行下说明。如果选择离新样本最近的3个实例,那么圆被判定为三角,如果选择5个实例,那么则被判定为方块。
KNN工作原理
工作原理如下:
假设有一个带有标签的样本数据集(训练样本集),其中包含每条数据与所属分类的对应关系。
输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较。
- 计算新数据与样本数据集中每条数据的距离。
- 对求得的所有距离进行排序(从小到大,越小表示越相似)。
- 取前 k (k 一般小于等于 20 )个样本数据对应的分类标签。
求 k 个数据中出现次数最多的分类标签作为新数据的分类。
KNN基本要素
通过上述原理的说明,可将主要参数归总为k值的选择、距离度量以及分类决策规则是k近邻算法的三个基本要素。