简述
kNN算法(中文翻译:k-近邻算法)是机器学习分类算法的基础部分,也是比较简单的算法之一。它的内容和原理并不复杂,但是计算量比较大,即时间复杂度和空间复杂度都比较高。书中以约会网站和手写数字识别系统为例。在这里,笔者也将从这两个例子下手,但是对部分代码进行了改进,以便适应Python3的编程环境。
算法描述
kNN的k指的是在新数据与样本数据进行比对时,只选取前k个最相近的数据。
kNN算法就是对未知类别属性的数据集中的每个点依次执行以下操作:
- 计算已知类别数据集中的点与当前点之间的距离(欧氏距离:
d=(xA−xB)2+(yA−