机器学习算法笔记之1：kNN算法

最新推荐文章于 2024-10-04 23:58:50 发布

marsjhao

最新推荐文章于 2024-10-04 23:58:50 发布

阅读量3.3k

点赞数 2

分类专栏：机器学习/深度学习文章标签：机器学习算法 kNN PCA 降维

本文链接：https://blog.csdn.net/marsjhao/article/details/62237428

版权

本文深入探讨了k近邻（kNN）算法，包括算法原理、代码实现、k值选择和距离度量。还讨论了降维技术，如主成分分析（PCA）和核化线性降维。此外，介绍了kNN在实际应用中的注意事项，如数据预处理、降维、超参数调优，并推荐使用Scikit-learn库进行实现。

摘要由CSDN通过智能技术生成

一、k近邻算法

1、概述

k近邻（k-NearestNeighbor，简称kNN）算法是一种常见的监督学习算法。其工作机制可概括为：给定测试样本，基于某种距离度量找出训练集中与其距离最近的k个训练样本，通常k是不大于20的整数。然后基于这k个“邻居”的类别信息来进行预测，通常使用投票法，即选择这k个样本中出现最多的类别来标记测试样本，在回归任务中可使用“平均法”，即将这k个训练样本标记的平均值作为预测结果，还可以基于距离进行加权平均或加权投票，距离样本最近的权重最大。

k近邻算法的三要素：k值选择、距离度量和分类决策规则。

优点：精度高、对异常值不敏感、无数据输入假定。

缺点：计算复杂度高、空间复杂度高，训练模型依赖训练集数据且不可丢弃。

适用数据范围：数值型和标称型。

k-NearestNeighbor分类器存在以下不足：

分类器必须记住所有训练数据并将其存储起来，以便于未来测试数据用于比较。这在存储空间上是低效的，数据集的大小很容易就以GB计。

对一个测试图像进行分类需要和所有训练图像作比较，算法计算资源耗费高。

2、算法代码实现

伪代码，对未知类别属性的数据集中的每个点依次执行以下操作：

（1）计算已知类别数据中的点与当前点之间的距离；

（2）按照距离递增次序排序；

（3）选取与当前点距离最小的k个点；

（4）确定前k个点所在类别的出现频率；

（5）返回前k个点出现频率最高的类别作为当前点的预测分类。

程序清单2-1 k-近邻算法

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0] #获取dataSet的第一维度的大小
    diffMat = tile(inX, (dataSetSize,1)) - dataSet #将inX在dataSet第一维度方向进行同大小复制，并作差
    sqDiffMat = diffMat**2 #每个元素平方
    sqDistances = sqDiffMat.sum(axis=1) #按行求和
    distances = sqDistances**0.5 #开方
    sor