【机器学习】K近邻（K-Nearest Neighbors，简称KNN）的基本概念以及消极方法和积极方法的区别

最新推荐文章于 2025-02-28 22:01:44 发布

Lossya

最新推荐文章于 2025-02-28 22:01:44 发布

阅读量1.7k

点赞数 35

文章标签：机器学习人工智能 python 学习算法 k近邻算法积极方法

本文链接：https://blog.csdn.net/m0_49243785/article/details/141714571

版权

引言

K近邻（K-Nearest Neighbors，简称KNN）算法是一种基础的机器学习方法，属于监督学习范畴

一、K近邻（K-Nearest Neighbors，简称KNN）

K近邻的核心思想是，如果一个样本在特征空间中的k个最近邻大多数属于某一个类别，那么该样本也属于这个类别。KNN算法既可以用于分类问题，也可以用于回归问题

1.1 原理详述

1.1.1 距离度量

KNN算法首先需要计算新样本与已有数据集中每个样本的距离。距离度量可以是欧氏距离、曼哈顿距离、汉明距离等。以下是几种常见的距离计算公式：

欧氏距离：对于两个n维向量 $A$ 和 $B$ ，其欧氏距离为
$\sqrt{\sum_{i=1}^{n} (A_i - B_i)^2}$
曼哈顿距离：其公式为
$\sum_{i=1}^{n} |A_i - B_i|$
汉明距离：通常用于布尔值向量，其公式为
$\sum_{i=1}^{n} \delta(A_i, B_i)$
其中 $\delta(x, y)$ 是指示函数，当 $\neq y$ 时为1，否则为0

1.1.2 选择k值

k值的选择对KNN算法的性能有重要影响。较小的k值意味着模型对噪声更敏感，而较大的k值可能导致模型对输入数据的特征不敏感

1.1.3 投票机制

对于分类问题，KNN算法通常采用“多数表决”规则，即一个新样本被分配到k个最近邻中最常见的类。如果存在多个类具有相同数量的最近邻，则可以随机选择一个类，或者基于距离加权投票

1.2 实现步骤

数据预处理：包括特征缩放和归一化，以确保所有特征对距离计算有相同的影响
选择k值：通过交叉验证等方法选择最优的k值
训练模型：KNN算法实际上没有显式的训练过程，它只是在预测时计算新样本与训练数据的距离
预测：对于一个新的样本，计算它与训练集中所有样本的距离，选择最近的k个样本，并根据这些样本的标签进行投票

1.3 参数选择

k值：如前所述，k值的选择对算法性能有很大影响。通常通过交叉验证来选择最优k值
距离度量：根据数据的特性选择合适的距离度量方法

1.4 应用场景

文本分类：如垃圾邮件检测
图像识别：如手写数字识别
推荐系统：通过用户之间的相似度来推荐商品或服务
异常检测：识别与大多数数据差异较大的异常点

1.5 优缺点

1.5.1 优点

算法简单，易于理解
不需要建立模型，因此训练时间几乎为零
可以用于分类和回归问题

1.5.2 缺点

计算量大，特别是对于大数据集
对噪声敏感，尤其是当k值较小时
需要大量的内存存储所有训练数据

1.6 k-近邻代码实例

以下是使用Python和Scikit-learn库实现的K近邻算法的完整代码，该代码使用了鸢尾花数据集：

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
# 加载数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target
# 数据集分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 特征缩放
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# 创建KNN分类器实例并训练
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
# 进行预测
y_pred = knn.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

代码解释：

首先加载了鸢尾花数据集
然后将其分为训练集和测试集
接着对特征进行了标准化处理，以消除不同特征之间的量纲影响
之后创建了一个K近邻分类器实例，并使用训练集进行了训练
最后在测试集上进行了预测，并计算了模型的准确率
在这个例子中，模型的准确率为1.0，即100%

三、如何选择k值

选择最优的k值是K近邻算法中的一个关键步骤，因为它直接影响到模型的性能。以下是一些常用的方法来确定最优的k值：

3.1 交叉验证

交叉验证是一种常用的方法来评估模型的泛化能力。以下是一个使用交叉验证来选择最优k值的步骤：

分割数据集：将数据集分割成训练集和验证集
循环遍历k值：对于每个可能的k值，使用训练集来训练模型，并在验证集上进行验证
评估性能：计算每个k值对应的验证集上的错误率或准确率
选择最优k值：选择错误率最低或准确率最高的k值

3.2 留出法（Hold-out Method）

与交叉验证类似，但是只将数据集分割一次：

分割数据集：将数据集分割成较大的训练集和较小的测试集
训练和测试：对于每个k值，使用训练集训练模型，并在测试集上进行测试
选择最优k值：根据测试集上的性能选择最优k值

3.3 学习曲线

通过绘制学习曲线，可以观察到随着k值的增加，模型在训练集和验证集上的性能如何变化：

训练和验证：对于不同的k值，绘制模型在训练集和验证集上的准确率
观察曲线：选择在验证集上准确率最高且训练集和验证集准确率差距最小的k值

3.4 超参数优化技术

使用如网格搜索（Grid Search）或随机搜索（Random Search）等超参数优化技术来搜索最优k值

3.5 Elbow Method

这是一种直观的方法，通过观察随着k值增加，模型误差的变化情况来确定k值：

计算误差：对于不同的k值，计算模型在验证集上的误差（例如，分类错误率）
绘制图表：将k值和对应的误差绘制成图表
寻找“肘部”：找到图表中误差开始明显减少的点，这个点通常被称为“肘部”，对应的k值就是最优k值

3.6 注意事项

过小的k值可能导致模型对噪声敏感，过大的k值可能导致模型对输入数据的特征不敏感
在实际应用中，k值通常选择为小于训练样本数的平方根
选择最优k值时，应考虑到计算成本，特别是在处理大型数据集时

四、消极方法和积极方法的区别

在机器学习和数据挖掘领域，消极方法和积极方法通常是指处理缺失值的不同策略。这两种方法各有其原理和优缺点

4.1 消极方法（Passive Methods）

消极方法不直接处理缺失值，而是简单地忽略含有缺失值的样本或特征。这种方法的原理是假设缺失值对模型的影响很小，或者可以通过其他方法（如特征选择、数据清洗等）来减轻其影响

4.1.1 原理：

忽略样本：直接从数据集中移除含有缺失值的样本
忽略特征：在某些情况下，可以忽略含有缺失值的特征

4.1.2 性能上的优缺点：

优点：简单易行，计算成本低
缺点：可能导致数据集规模减小，从而影响模型的性能；同时，缺失值的存在可能是数据集中的重要信息，忽略它们可能会导致模型的准确性下降

4.2 积极方法（Active Methods）

积极方法试图通过某种方式估计或填充缺失值，以保留完整的数据集。这种方法的原理是利用现有数据来推断缺失值，从而保持数据的完整性

4.2.1 原理：

插值法：使用相邻或相似数据点的值来估计缺失值。例如，使用线性插值、样条插值等
基于模型的方法：使用机器学习模型（如K近邻、决策树、支持向量机等）来预测缺失值

4.2.2 性能上的优缺点：

优点：保留了完整的数据集，可以更好地利用数据中的信息
缺点：计算成本较高，且填充方法的选择会影响模型的性能。如果填充方法不合适，可能会引入额外的噪声，降低模型的准确性

4.3 综合考虑

在实际应用中，选择消极方法还是积极方法取决于具体问题、数据集的特性以及计算资源的限制

对于大规模数据集，积极方法可能更合适，因为它可以保留更多的信息
对于计算资源有限或缺失值较少的情况，消极方法可能更加实用

在实际操作中，还可以结合使用这两种方法，例如，先使用消极方法删除部分缺失值严重的样本，然后使用积极方法处理剩余的缺失值。这样可以充分利用数据中的信息，同时降低计算成本