了解k-近邻算法：简单而强大的机器学习方法

_用户昵称_

已于 2023-10-30 22:25:18 修改

阅读量363

点赞数 4

分类专栏：机器学习文章标签：机器学习

于 2023-10-09 21:54:48 首次发布

本文链接：https://blog.csdn.net/Daemonic_/article/details/133706555

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

前言
一、k-近邻算法的基本原理
二、k-近邻算法的步骤
三、k-近邻算法的优势和局限性
- 1.k-近邻算法具有以下优势
- 2.k-近邻算法也有一些局限性
四、k-近邻算法的应用领域
五、k-近邻算法示例：手写数字识别
总结

前言

在机器学习领域，有许多算法可以用来解决不同类型的问题。其中一种被广泛应用的算法是k-近邻算法（k-Nearest Neighbors，简称kNN）。

kNN算法是一种非常简单但又非常强大的监督学习方法，它能够解决分类和回归问题，并且在实际应用中具有广泛的适用性。它的核心思想是基于邻近的数据点来做出预测。本文将向您介绍k-近邻算法的基本原理、步骤、优缺点和应用领域，并通过实例和代码示例演示其应用。

一、k-近邻算法的基本原理

"物以类聚，人以群分"

k-近邻算法的基本思想非常直观，它基于一个假设：相似的样本往往具有相似的输出结果。换句话说，如果一个样本在特征空间中与 k 个已知标记的最近邻样本中的大多数属于某个类别，那么该样本很可能属于这个类别。

二、k-近邻算法的步骤

1.数据准备：

首先，收集并准备好带有标签的训练数据集，再对数据进行清洗和预处理。每个数据点都包括特征（用于描述数据的属性）和相应的类别标签（对于分类问题）或目标值（对于回归问题）。

2.选择 k 值：

确定 k 值，即决定要考虑多少个最近邻居。选择适当的 k 值对算法的性能至关重要。较小的 k 值可能导致模型对噪声敏感，较大的 k 值可能导致模型过于平滑，通常选择奇数以避免平局情况。

3.距离度量：

选择合适的距离度量方法，如欧氏距离、曼哈顿距离、余弦相似度等。距离度量方法用于衡量数据点之间的相似性或距离。

欧氏距离：

欧式距离也称欧几里得距离，衡量的是多维空间中两个点之间的绝对距离，也就是我们直观的两点之间直线最短的直线距离。

曼哈顿距离：

曼哈顿距离也称出租车几何，用以标明两个点在标准坐标系上的绝对轴距总和。

4.计算距离：

对于每个待预测的数据点，计算它与训练数据集中所有数据点之间的距离。通常，可以使用计算机库函数来高效地执行这些计算。

5.选择最近邻居：

根据计算的距离，选择 k 个最近的训练数据点作为待预测数据点的邻居。

6.投票或平均：

对于分类问题，统计 k 个最近邻居中每个类别的数量，选择票数最多的类别作为待预测数据点的类别。对于回归问题，计算 k 个最近邻居的目标值的平均值，作为待预测数据点的预测值。

7.预测：

根据投票或平均结果，确定待预测数据点的最终类别（对于分类问题）或预测值（对于回归问题）。

8.评估模型：

对模型的性能进行评估，通常使用测试数据集来计算准确率（对于分类问题）或均方误差（对于回归问题）等指标。

9.调整参数：

可以尝试不同的K值、距离度量方法等参数，以优化模型的性能。

10.应用模型：

一旦模型经过训练和调整，就可以将其用于实际问题的预测或分类。

三、k-近邻算法的优势和局限性

1.k-近邻算法具有以下优势：

（1）简单而直观：基本思想容易理解，无需复杂的参数调整，不需要复杂的数学推导。

（2）适用性广泛： 适用于各种类型的数据和问题。

（3）无需训练： 是一种懒惰学习（lazy learning）方法，不需要显式的训练过程。

2.k-近邻算法也有一些局限性：

（1）计算复杂度高： 随着数据规模的增加，算法的计算复杂度也会显著增加。当样本量非常大时，算法效率较低。

（2）对异常值敏感：对于不平衡数据集和噪声数据比较敏感。

（3）对 k 取值非常敏感：需要合适的 k 值和距离度量方式，否则可能导致结果不准确。

四、k-近邻算法的应用领域

k-近邻算法在各种领域都有广泛的应用，以下是一些常见的应用场景：

图像识别：通过比较待识别图像与已知图像库中的样本进行分类，如手写数字识别、人脸识别等。
推荐系统：根据用户兴趣爱好的相似程度，为其推荐合适的用户、物品或内容。
医学诊断：可用于疾病分类，基于患者的医学数据找到相似病例。
自然语言处理：可用于文本分类和情感分析等任务。
异常检测：可以通过检测一个样本与邻近样本的差异来检测异常情况，帮助检测数据中的异常点。

五、k-近邻算法示例：手写数字识别

在这个示例中，我们将使用k-近邻算法来识别手写数字，使用经典的Scikit-learn库中的MNIST数据集，其中包含了大量的手写数字图片。

若你的环境中没有安装Scikit-learn库，可以进入conda虚拟环境，输入下列代码，使用清华镜像源
安装Scikit-learn。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scikit-learn

首先，让我们导入所需的库并加载数据：

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
import matplotlib.pyplot as plt

# 加载手写数字数据集
digits = load_digits()

# 将数据分为特征和标签
X = digits.data
y = digits.target

# 可视化一个手写数字样本
plt.figure(figsize=(3, 3))
plt.imshow(X[0].reshape(8, 8), cmap=plt.cm.gray_r, interpolation='nearest')
plt.show()

此时，可视化了一个手写数字样本：

接下来，我们将数据集划分为训练集和测试集，创建一个k-近邻分类器并使用训练数据进行训练：

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建 k-近邻分类器
k = 3  # 设置k值
knn = KNeighborsClassifier(n_neighbors=k)

# 拟合训练数据
knn.fit(X_train, y_train)

# 预测
y_pred = knn.predict(X_test)

# 计算准确率
accuracy = metrics.accuracy_score(y_test, y_pred)
print("准确率：", accuracy)

可以看到准确率非常高：

准确率： 0.9888888888888889

最后，我们可以使用训练好的模型对新的手写数字进行识别：

# 随机选择一个测试样本进行预测
random_test_sample = X_test[10]
predicted_label = knn.predict([random_test_sample])
print("预测的标签:", predicted_label[0])

# 可视化预测结果
plt.figure(figsize=(3, 3))
plt.imshow(random_test_sample.reshape(8, 8), cmap=plt.cm.gray_r, interpolation='nearest')
plt.show()

输出结果为：

预测的标签: 1

从结果来看，预测的标签是正确的。

在这个示例中，我们首先加载手写数字数据集并显示了一个样本图像。接着，我们训练了一个k-近邻分类器，并用测试集评估了模型的性能。最后，我们随机选择一个测试样本进行预测，并可视化了预测结果。

通过这个实例，我们可以看到k-近邻算法在手写数字识别问题上的应用。通过调整k值、尝试不同的距离度量等方法，我们可以进一步改善模型的性能。

总结

k-近邻算法是一种简单而强大的机器学习方法，适用于各种类型的问题。通过选择合适的k值和距离度量方法，kNN可以在分类和回归任务中表现出色。在实际应用中，kNN需要考虑选择适当的k值以及数据预处理等问题。通过深入理解kNN算法，并通过实例学习如何应用，我们可以充分发挥其优势，解决实际问题。

希望本文能够帮助你理解k-近邻算法的原理和实际应用。如果你对其他机器学习算法也感兴趣，请继续关注我的博客。如有任何疑问，请随时向我提问。

_用户昵称_

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
了解k-近邻算法：简单而强大的机器学习方法

当谈到机器学习算法中的分类问题时，k-近邻（k-Nearest Neighbors，简称kNN）算法是一个常见且直观的选择。本博客将向您介绍k-近邻算法的基本概念、工作原理、应用领域以及一些实际示例。
复制链接

扫一扫