作为一个过渡,这一节记录关于knn的知识。
这篇博客不贴关于knn的具体细节了,knn是十分容易理解的,关于knn可参考的博客一大堆,贴一个讲的好的吧一只兔子理解knn
KNN
选择样本数据集中与待预测值前k个最相似的样本,取其中最多的作为该待预测值的类
如果希望knn不给出所述的类,给出可能所述类的概率也是可行的。
很多人会疑惑k应该如何选取,一般来说,k靠经验,或者一个个试。也有个通俗的经验就是k取样本数的平方根。
下面讲维度灾难时会提到关于k的选取问题。
距离
关于具体的选择标准可能比k更重要。
一般来说选择欧式距离(本节不讨论距离,抽时间好好总结下距离)就可以了。即, x=(x1,x2,...,xn),y=(y1,y2,...,yn) ,则该两个样本的距离如下:
d=∑i=1<