- 所属:分类算法
- 概述:
- 工作原理:
输入:没有分类标签的新数据
计算:将输入的数据特征值与样本中的数据特征值进行比较,提取样本集中K个特征最相似数据(最近邻),统计K个数据中的样本标签,出现次数最多的分类作为新数据的分类。
注意:K一般大于20;
- 实施KNN算法:
- 计算已知类别数据集中的每个点与当前点之间的距离;
- 按照距离递增次序排序;(为提高算法效率,可以维护k个堆的方式,只取k个)
- 选取与当前距离最小的k个点;
- 确定前k个点所在类别的出现频率;
- 返回前k个点出现频率最高的类别,作为当前点的预测类别。
- 距离计算:
欧氏距离:
(还有其他的距离计算方式,以后总结一遍!)
- 测试:
错误率:分类器给出错误结果的次数除以测试执行的总数。