初步了解knn算法
knn算法是一种最为基本的分类和回归方法,是一种监督学习方法里的常用方法,其全称为K-Nearest Neighbor(k个距离你最近的邻居),也就是其根据你距离最近的几个训练实例来推测判断你的类别。
knn算法的基本流程
1.计算新实例与训练集中每个实例之间的距离
其计算每个距离的方式通常使用欧几里得距离,公式如下:
同样若采取曼哈顿距离等方式也是可行的
2.按照距离递减顺序,选择出距离最近的k个邻居
在挑选k值的时候,若k值过大,则可能欠拟合,若k值过小,则可能受到样本特例的影响,造成过拟合。
故我们可通过交叉验证不断尝试最优的K值,从选取一个较小的K值开始,不断增加K的值,然后计算验证集合的方差,最终找到一个比较合适的K值。
还可以根据经验选择,比如经常性的做某一数据集,知道他的K大概是多少比较好
3.根据这k个邻居的类别进行投票,如果某个类别的票数最多,则新实例也可归类为该类别。
knn算法的优缺点
KNN算法优点
简单易用,相比其他算法,KNN算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。
模型训练时间快,上面说到KNN算法是惰性的,这里也就不再过多讲述。
预测效果好。
对异常值不敏感
KNN算法缺点
对内存要求较高,因为该算法存储了所有训练数据
预测阶段可能很慢
对不相关的功能和数据规模敏感