机器学习基础算法 (六)-k 最近邻算法（k-Nearest Neighbors, k-NN）

置顶

海棠AI实验室

已于 2025-03-22 07:04:06 修改

阅读量1.3k

点赞数 24

分类专栏： “智途修炼录“ - AI学习与进阶修炼指南文章标签：机器学习近邻算法人工智能算法 k 最近邻算法

于 2025-01-03 22:39:51 首次发布

本文链接：https://blog.csdn.net/liu1983robin/article/details/144919367

版权

目录

k 最近邻算法原理

Python 实现 k 最近邻算法

模型评估与调优

总结

在机器学习领域中，k 最近邻（k-Nearest Neighbors, k-NN）算法以其简单、直观且易于理解的特点，广泛应用于分类和回归任务。尽管它在处理大规模数据时可能遇到效率瓶颈，但凭借其无参数、懒惰学习（Lazy Learning）等特性，仍然是许多实际应用中不可或缺的工具。

本文将深入探讨 k-NN 的原理、Python 实现、模型评估以及调优，最终通过具体的案例展示如何在实际项目中应用该算法。

一、k 最近邻算法原理

k-NN 是一种基于实例的学习算法，这意味着模型在训练过程中并不进行显式的学习，而是直接记住训练数据中的所有实例，并在预测时通过计算新样本与训练样本之间的距离来做出判断。

1.1 算法步骤

k-NN 的工作原理可以总结为以下几个步骤：

选择距离度量：常见的距离度量方法有欧几里得距离、曼哈顿距离、余弦相似度等。最常用的是欧几里得距离。
选择 k 值：选择一个正整数 k，表示从训练数据集中选取 k 个与测试点距离最小的样本。
投票/加权投票：对于分类任务，k 个邻居会投票选出最多的类别；对于回归任务，则取 k 个邻居的均值或加权均值作为预测值。

1.2 距离度量公式

在这里插入图片描述

此外，还可以使用其他类型的距离度量方法，如曼哈顿距离、切比雪夫距离等。

1.3 优缺点分析

优点：

简单直观：k-NN 算法没有训练过程，非常直观，易于理解。
无需假设数据分布：与线性回归或逻辑回归等方法不同，k-NN 不需要对数据分布作任何假设，适用于多种数据类型。
适应性强：在高维空间中，k-NN 仍能较好地处理复杂的分类问题。

缺点：

计算复杂度高：由于在预测时需要计算与所有训练样本的距离，因此在处理大数据集时效率较低。
维度灾难：在高维数据中，欧几里得距离的效果可能会退化，导致 k-NN 的性能下降。
需要选择合适的 k 值：k 值的选择对模型的效果有很大影响。如果 k 值过小，模型可能对噪声过于敏感；如果 k 值过大，模型可能会变得过于简单。

二、Python 实现 k 最近邻算法

在 Python 中，常用的机器学习库 scikit-learn 提供了非常方便的 k-NN 实现，下面我们将通过一个简单的示例展示如何使用 k-NN 进行分类任务。

2.1 安装必要的库

在开始实现之前，确保安装了 scikit-learn 和 matplotlib 等必要的库：

pip install scikit-learn matplotlib

2.2 导入数据与库

我们使用 scikit-learn 提供的鸢尾花数据集（Iris Dataset）进行分类任务，该数据集包含了 150 条样本，每个样本有 4 个特征（如花瓣长度、花萼宽度等），目标是根据这些特征预测鸢尾花的种类。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score

2.3 加载并探索数据

我们使用 load_iris() 加载数据集，查看其基本信息。

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 查看数据集的基本信息
print("数据特征名称:", iris.feature_names)
print("数据集大小:", X.shape

最低0.47元/天解锁文章