最近邻分类器的学习与分类过程融为一起,在分类过程中需要保护所有训练集样本,对于未知样本X,首先需要利用某种相似度评价标准,从训练集中获取与其最相似的K个样本,再利用k个样本的类别预测预测样本X的类别,因此K-NN算法没有单独的学习阶段,是一种在分类过程中实现学习的监督分类方法。
有两点需要注意:
1,在设计最近邻分类器时需要一个衡量样本之间距离的度量函数,这个函数必须能够给出两个样本之间的距离大小,常用欧氏距离和Minkowski距离。
2,需要降低最近邻规则的搜索复杂度,采用欧式距离时的计算复杂度为O(l*n*n),必须想办法降低,可以采用降维法,预建结构法,以及训练集裁减法,往往是先裁减原始选练集样本集合,然后构建搜索树,最后在实际应用分类时,使用降维法。