＜机器学习＞ KNN（K近邻）

最新推荐文章于 2024-09-11 21:05:16 发布

thisiszdy

最新推荐文章于 2024-09-11 21:05:16 发布

阅读量925

点赞数 7

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/thisiszdy/article/details/133180571

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

一、KNN

KNN（K-Nearest Neighbors，K最近邻）算法是一种基本且广泛使用的分类与回归方法。尽管它简单，但在许多情况下却非常有效。在分类任务中，KNN通过测量不同数据点之间的距离来进行工作，并将一个数据点分类为距离它最近的K个邻居中最常见的类别。在回归任务中，KNN的输出是K个最近邻居的值的平均值或中位数。

二、KNN算法基本步骤

计算距离：首先，KNN算法需要计算待分类点与已知类别数据集中的每个点之间的距离。常用的距离度量方法是欧氏距离，但也可以使用其他距离度量，如曼哈顿距离或闵可夫斯基距离。
寻找K个最近邻：在计算了所有距离之后，算法会选择距离最小的K个点作为最近邻。
决定类别：对于分类任务，KNN算法会查看这K个最近邻的类别，并通过多数投票的方式（即，选择这K个点中出现次数最多的类别）来预测待分类点的类别。对于回归任务，则可能计算这K个点的平均值或中位数作为预测值。

三、KNN算法的优缺点

优点

不需要训练过程，直接利用训练集进行预测。
理论上可以处理任何类型的分布数据，包括非线性关系。

缺点

当数据集很大时，计算量大，因为需要计算待分类点与所有训练集数据点的距离。
对K值的选择敏感，K值不同可能导致不同的分类结果。
当数据集的类别分布不平衡时，可能会影响分类的准确度。
对于高维数据，可能会遇到“维数灾难”问题，即随着维度的增加，计算距离所需的计算量呈指数级增长，且数据的稀疏性可能导致算法效果下降。

四、性能优化

1. K值选择优化

K值的影响：K值的选择对KNN算法的性能有直接影响。较小的K值可能导致模型对噪声敏感且容易过拟合，而较大的K值则可能使模型过于简单，导致欠拟合。
优化方法：
交叉验证：通过交叉验证来评估不同K值下的模型性能，选择表现最佳的K值。常用的交叉验证方法有k折交叉验证。
网格搜索：在指定的K值范围内进行网格搜索，找到最优的K值。

2. 距离度量优化

常用距离度量：包括欧氏距离、曼哈顿距离、闵可夫斯基距离等。
优化方法：
根据数据特性选择：根据数据的具体特性选择合适的距离度量方法。例如，对于连续特征的数据，欧氏距离可能是一个好的选择；而对于离散特征的数据，曼哈顿距离可能更合适。
标准化或归一化：在计算距离之前，对数据进行标准化或归一化处理，以消除不同特征间的量纲影响。

3. 数据预处理优化

数据清洗：处理数据集中的缺失值和异常值。缺失值可以通过删除、填充或插值等方法进行处理；异常值则可以通过统计方法或离群点检测算法进行识别和处理。
数据标准化/归一化：将数据按照一定的标准进行缩放，使数据落在一个特定的区间内，有助于模型的收敛和提高算法效果。

4. 特征选择与优化

特征选择：从原始特征中选择出较优的特征子集，以提高模型的预测性能和泛化能力。常用的特征选择方法有特征相关性分析、嵌入式特征选择和过滤式特征选择等。
特征降维：通过降维技术减少特征空间的维度，从而减少计算量并提高算法的运行效率。常用的降维方法包括PCA（主成分分析）、LDA（线性判别分析）和t-SNE等。

5. 算法实现优化

KD树和Ball Tree：这两种数据结构可以优化KNN算法中的搜索过程，通过构建索引来减少不必要的距离计算，从而提高算法的效率。KD树适用于维度较低的数据集，而Ball Tree则更适合处理高维数据。
并行计算：利用并行计算技术（如多核CPU、GPU等）来加速KNN算法的计算过程。

6. 权重设置优化

加权KNN：在KNN算法中，可以为不同的邻居赋予不同的权重，以提高模型的预测准确度。常见的权重设置方式包括均匀权重和根据距离加权。
优化方法：通过交叉验证来评估不同权重设置下的模型性能，选择表现最佳的权重设置方式。

五、开源近似最近邻搜索（ANN）

Annoy（Approximate Nearest Neighbors Oh Yeah）：具有出色的搜索性能，并且在性能和索引大小/构造时间之间进行了权衡。
ScaNN（Scalable Nearest Neighbors）：通过优化量化和树搜索的结合来提高搜索效率和准确性。ScaNN旨在提供高效的搜索能力，特别是在处理超大规模数据集时。它的原理基于两个关键思想：分层索引和候选筛选。
Faiss（Billion-scale similarity search with GPUs）：Faiss使用了先进的向量量化技术，能够支持在大规模数据集上进行高效的相似性搜索；Faiss的原理基于两个关键思想：索引结构和量化编码。
Hnswlib（fast approximate nearest neighbor search）：具有足够计算资源的高维数据，具有较低的内存消耗和较快的查询速度。