KNN 算法详解：从原理到实践的全面解析

最新推荐文章于 2025-05-28 10:48:32 发布

24毕业生从零开始学ai

最新推荐文章于 2025-05-28 10:48:32 发布

阅读量642

点赞数 16

文章标签：算法

本文链接：https://blog.csdn.net/LNNNNNNNNLLLL/article/details/148195344

版权

在机器学习的众多算法中，K 最近邻（K - Nearest Neighbors，简称 KNN）算法以其简单直观的思想和出色的实用性脱颖而出。无论是数据分类还是回归任务，KNN 算法都能发挥重要作用。本文将深入探讨 KNN 算法的基本流程，结合原理、代码示例、优缺点及应用场景，帮助你全面掌握这一经典算法。

一、KNN 算法概述

KNN 算法是一种基于实例的有监督学习算法，其核心思想可以简单概括为 “近朱者赤，近墨者黑”。在进行预测时，KNN 算法不会像决策树、神经网络那样去构建一个显式的模型，而是直接利用训练数据对新数据进行分类或回归。它通过计算新数据点与训练数据集中所有样本点的距离，找出距离最近的 K 个邻居，然后根据这 K 个邻居的类别（分类任务）或数值（回归任务）来确定新数据点的类别或预测值。

二、KNN 算法核心要素

2.1 距离度量

在 KNN 算法中，距离度量用于衡量数据点之间的相似程度，距离越近，说明两个数据点越相似。常见的距离度量方法有：

欧几里得距离（Euclidean Distance）：是最常用的距离度量方式，适用于连续型数据。对于两个 n 维向量
X=(x1,x2,⋯,xn)
和
Y=(y1,y2,⋯,yn)
，它们之间的欧几里得距离计算公式为：

d(X,Y)=i=1∑n(xi−yi)2

曼哈顿距离（Manhattan Distance）：也称为城市街区距离，计算方式为各维度坐标差值的绝对值之和。对于上述两个向量
X
和
Y
，曼哈顿距离计算公式为：

d(X,Y)=i=1∑n∣xi−yi∣

闵可夫斯基距离（Minkowski Distance）：是欧几里得距离和曼哈顿距离的一般化形式，公式为：

d(X,Y)=(i=1∑n∣xi−yi∣p)p1

当

p=2

时，就是欧几里得距离；当

p=1

时，就是曼哈顿距离。

2.2 K 值的选择

K 值是 KNN 算法中一个关键的超参数，它决定了在预测时考虑多少个邻居。K 值的选择对算法的性能有着重要影响：

K 值较小：模型会变得复杂，对训练数据的拟合程度较高，容易发生过拟合。因为只考虑少数几个距离最近的邻居，新数据点可能会受到训练数据中噪声的影响。

K 值较大：模型会变得简单，具有更好的平滑效果，但可能会导致欠拟合。此时预测结果受大量较远数据点的影响，可能无法准确反映局部数据的特征。在实际应用中，通常会通过交叉验证等方法来选择合适的 K 值。

三、KNN 算法基本流程

3.1 数据准备

首先，我们需要准备好训练数据集和测试数据集。训练数据集包含已知类别或数值标签的样本，用于算法学习数据的特征和规律；测试数据集则是用于评估算法性能的未知数据。以经典的鸢尾花数据集为例，它包含 150 个样本，每个样本有 4 个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度），以及对应的鸢尾花类别（山鸢尾、杂色鸢尾、维吉尼亚鸢尾）。我们可以将数据集划分为训练集和测试集，比如按照 8:2 的比例划分。

3.2 计算距离

对于测试数据集中的每一个数据点，计算它与训练数据集中所有样本点的距离。这里以欧几里得距离为例，假设测试数据点为

Xtest=(xtest1,xtest2,⋯,xtestn)

，训练数据集中的一个样本点为

Xtrain=(xtrain1,xtrain2,⋯,xtrainn)

，则它们之间的欧几里得距离计算如下：

d(Xtest,Xtrain)=i=1∑n(xtesti−xtraini)2

3.3 选择 K 个最近邻居

根据计算得到的距离，对训练数据集中的所有样本点按照距离从小到大进行排序，然后选取距离测试数据点最近的 K 个样本点作为它的邻居。

3.4 分类任务处理

如果是分类任务，我们统计这 K 个邻居中每个类别的出现次数，出现次数最多的类别即为测试数据点的预测类别。例如，在一个二分类问题中，K = 5，5 个邻居中有 3 个属于类别 A，2 个属于类别 B，那么测试数据点就会被预测为类别 A。

3.5 回归任务处理

对于回归任务，我们计算这 K 个邻居的数值标签的平均值或加权平均值（根据距离远近赋予不同权重，距离越近权重越高），将其作为测试数据点的预测值。比如，K 个邻居的数值标签分别为

y1,y2,⋯,yK

，预测值

ypred

可以通过以下公式计算（简单平均）：

ypred=K1i=1∑Kyi

3.6 评估算法性能

使用合适的评估指标对 KNN 算法在测试数据集上的性能进行评估。对于分类任务，常用的评估指标有准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 值等；对于回归任务，常用的评估指标有均方误差（Mean Squared Error，MSE）、平均绝对误差（Mean Absolute Error，MAE）等。

四、KNN 算法 Python 代码示例

TypeScript

取消自动换行复制

import numpy as np

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集

iris = load_iris()

X = iris.data

y = iris.target