DataCamp——kNN with R
k-近邻算法(kNN)概述
KNN(K- Nearest Neighbor)法即K最邻近法,该算法是数据挖掘分类中一个理论上比较成熟的算法,也是最简单的机器学习算法之一。首先我们先来对kNN算法做一个简单的了解,对于算法名字可以拆解成三部分,也就是k、近、邻,下面我们来具体讨论一下这三部分。
何谓近
近其实表示的就是两两样本之间的距离。众所周知,在距离判别法中也同样存在各种距离来判定其分类,比如欧式距离,曼哈顿距离、切比雪夫距离等,如果两者距离较其他样本之间更近,那么则判断为同一类。同样,在k近邻算法中,我们同样也是选取距离作为判别的指标之一,通常来说,一般选取欧式距离和曼哈顿距离:
欧式距离: d ( x , y ) = ∑ k = 1 n ( x k − y k ) 2 d(x,y)=\sqrt{\sum_{k=1}^{n}{(x_k-y_k)}^{2}} d(x,y)=k=1∑n(x<