简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。
实施 kNN 分类算法(使用k-近邻算法将每组数据划分到某个类中)
其伪代码如下:
对未知类别属性的数据集中的每个点依次执行以下操作:
(1)计算已知类别数据集中的点与当前点之间的距离;
(2)按照距离递增次序排序;
(3)选取与当前点距离最小的k个点;
(4)确定k个点所在类别的出现频率;
(5)返回前k个点出现频率最高的类别作为当前点的预测分类。
python函数classify0()程序
def classify0 (inX, dataset, labels, k):
dataSetSize = dataSet.shape[0]
diffMat = tile(inX, (dataSetSize,1))-dataSet
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis=1)