一、KNN算法的概念
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。
所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
简单来说,K-NN可以看成:有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,
就开始跟训练数据里的每个点求距离,然后挑离这个训练数据最近的K个点看看这几个点属于什么类型,然后用少数服从多数的原则, 给新数据归类。
二、K近邻分类模型的三要素:
a:距离度量 b:K值的选择 c:分类决策的规则
距离度量:
1.欧氏距离是最常见的距离度量,衡量的是多维空间中各个点之间的绝对距离。公式如下:
d i s t ( X , Y ) = ∑ i = 1 N ( x i − y i ) 2 dist(X,Y) = \sqrt{\sum\limits_{i=1}^{N}{(x_i - y_i)^2}} dist(X,Y)=i=1∑N(x