机器学习（二）KNN算法

橡皮鸭小队长

于 2022-05-15 16:16:45 发布

阅读量190

点赞数

分类专栏： # 机器学习文章标签：机器学习算法分类 python

本文链接：https://blog.csdn.net/VIAww/article/details/124783674

版权

3 篇文章 0 订阅

订阅专栏

K近邻(K-nearst neighbors,KNN)是一种基本的机器学习算法，每个样本都可以用它最接近的k个邻居来代表。
KNN在做回归和分类的主要区别在于最后做预测的时候的决策方式不同。KNN在分类预测时，一般采用**多数表决法**；而在做回归预测时，一般采用**平均值法**。

KNN算法原理

在KNN算法中，非常重要的主要是三个因素：
- K值的选择：对于K值的选择，一般根据样本分布选择一个较小的值，然后通过交叉验证来选择一个比较合适的最终值；在选择比较小的K值的时候，表示使用较小邻域中的样本进行预测，训练误差会减小，但是会导致模型变得复杂，容易过拟合；K值很大时，表示使用较大邻域中的样本进行预测，训练误差增大，同时会使得模型变得简单，容易导致欠拟合；
- 距离的度量：一般使用欧氏距离(欧几里得距离);
- 决策规则：在分类模型中，主要使用多数表决法或者加权多数表决法；在回归模型中，主要使用平均值法或者加权平均值法。

KNN算法的重点在于找出K个最近邻的点，主要方式有：
- 蛮力实现(brute)：计算预测样本导到所有训练集样本的距离，然后选择最小的K个距离即可得到K个最近邻点。缺点在于当特征数比较多、样本数比较多的时候，算法的执行效率比较低；
- **KD树(kd_tree)**：KD树算法中，首先是对训练数据进行建模，构建KD树，然后再根据建好的模型来过去临近样本数据。
此外还有一些从KD_Tree修改后的求解最近邻点的算法，比如：Ball Tree、BBF Tree、MVP Tree等。

KD Tree是KNN算法中用于计算最近邻的快速、便捷构建方式。
当样本数据量少的时候，我们可以使用brute这种暴力的方式进行求解最近邻，即计算到所有样本的距离。但是当样本量比较大的时候，直接计算所有样本的距离，工作量有点大，所以在这种情况下，我们可以使用kd tree来快速的计算。

KD Tree构建方式

KD树采用从m个样本的n维特征中，分别计算n个特征取值的方差，用方差最大的第k维特征 $n_k$ 作为根节点。对于这个特征，选择取值的中位数 $n_{kv}$ 作为样本的划分点，对于小于该值的样本划分到左子树，对于大于等于该值的样本划分到右子树，对左右子树采用同样的方式找方差最大的特征作为根节点，递归即可产生KD树。