Python实战：使用kNN算法对水果进行分类

最新推荐文章于 2025-08-26 08:15:00 发布

原创最新推荐文章于 2025-08-26 08:15:00 发布 · 1k 阅读

CC 4.0 BY-SA版权

简介：K-Nearest Neighbors（kNN）算法是一种监督学习方法，主要用于分类和回归任务。本项目通过Python实现kNN算法，对包含名称、重量、长度和宽度等特征的水果数据集进行分类。项目涵盖数据预处理、创建训练和测试集、算法实现、模型评估和参数调优等环节，旨在加深对kNN算法的理解，并在实践中提升机器学习项目的能力。 kNN

1. kNN算法原理与应用

1.1 kNN算法基础

k-最近邻（k-Nearest Neighbors，简称kNN）算法是一种基本分类与回归方法。它通过计算测试数据与已标记的训练数据点之间的距离，来确定最近邻的k个训练样本，然后基于这些样本的类别信息来对测试数据进行分类。

1.2 kNN的工作原理

在分类问题中，kNN的核心思想是“物以类聚”。给定一个数据点，kNN会找出这个数据点的k个最近邻居，然后根据邻居的多数类别，决定数据点的类别。这种方法简单直观，但同时也依赖于距离的正确计算和k值的合理选择。

1.3 kNN的应用场景

kNN算法适合于解决多种分类问题，尤其在数据量不是非常大时效果较好。它在推荐系统、图像识别、医疗诊断等领域中应用广泛。比如在医疗影像分析中，可以通过训练集中的特征数据学习疾病分类模型，进而预测新病例的疾病类型。

# Python代码示例：计算两个数据点之间的欧氏距离
def euclidean_distance(point1, point2):
    return np.sqrt(np.sum((np.array(point1) - np.array(point2)) ** 2))

# 示例使用
point1 = [1, 2, 3]
point2 = [4, 5, 6]
print("The Euclidean distance is:", euclidean_distance(point1, point2))

上述代码演示了如何计算两个数据点之间的欧氏距离，这是kNN算法中用于衡量数据点间相似度的一种常用方法。通过这种方式，kNN算法可以找出与待分类点距离最近的k个邻居。

2. 数据预处理步骤

2.1 数据清洗与缺失值处理

在数据分析和机器学习项目中，数据预处理是至关重要的步骤之一。它直接影响到后续模型的效果和准确性。数据预处理首先需要进行的是数据清洗，其目的是确保数据集的质量，提高数据的可信度和可用性。数据清洗主要包含识别和处理缺失数据，以及检测和修正异常值。

2.1.1 识别和处理缺失数据

缺失数据是在数据收集或数据录入过程中常见的问题，它可能会严重干扰模型的训练过程，导致预测结果出现偏差。因此，在进行任何数据建模之前，识别和处理缺失值是必不可少的一步。

在Python中，pandas库是处理数据集的常用工具，特别是在处理缺失数据方面。pandas 提供了 isnull() 和 notnull() 函数来检测缺失数据，同时提供了 fillna() , dropna() 等函数来进行填充或者删除缺失值的操作。

import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 检查缺失数据
missing_data = data.isnull().sum()

# 可以选择删除含有缺失值的行
data = data.dropna()

# 或者填充缺失值
# 例如，使用列的平均值填充缺失值
data['column_name'] = data['column_name'].fillna(data['column_name'].mean())

处理缺失数据时，选择删除行或填充值需要根据实际数据集的情况来定。如果数据量很大，且删除缺失数据不影响数据集的完整性，那么删除可能是简单有效的处理方式。反之，如果数据集较小，或者缺失数据占比较大，则可能需要选择适当的策略来填充缺失值。

2.1.2 异常值的检测与修正

异常值是指那些与大多数数据值显著不同的数据点。它们可能是由于数据输入错误、测量误差或者真正的变异造成的。在某些情况下，异常值可能是重要的信息，但在模型训练中，通常会被视为噪声来处理。

在异常值的检测和修正方法上，存在多种技术，比如箱型图分析、Z-score方法、IQR（四分位数间距）方法等。其中，IQR方法是较为常用的一种，其基本思想是如果一个数值距离上四分位数（Q3）和下四分位数（Q1）的差值（IQR）的1.5倍以上，则认为该数值是异常值。

# 计算四分位数
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1

# 识别异常值
outliers = (data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))

# 修正异常值，例如将异常值设置为上四分位数或下四分位数
data = data[~outliers]

处理异常值的策略同样需要根据实际数据集和业务需求来定制。修正策略可能包括替换为均值、中位数、众数，或者更为复杂的统计方法。在某些情况下，可能会选择保留异常值，特别是当这些值具有特定的业务含义时。

通过以上对缺失值和异常值的处理，数据的质量得到了显著提升，为后续的数据分析和模型训练奠定了坚实的基础。在实际应用中，数据清洗和预处理是反复迭代的过程，需要根据模型的表现不断地调整和完善。

3. 训练集和测试集的划分

在机器学习项目中，将数据集划分为训练集和测试集是核心步骤之一。正确的划分可以确保评估指标更加准确，从而对模型性能进行更公正的评估。本章节将详细介绍训练集和测试集的作用，并探讨其划分策略与方法，以及交叉验证和模型选择的最佳实践。

3.1 训练集与测试集的作用

在机器学习流程中，划分训练集与测试集的主要作用是衡量模型对未知数据的泛化能力。模型在训练集上学习，而测试集用于评估模型的性能。这一过程帮助我们理解模型在实际应用中的表现。

3.1.1 评估模型泛化能力的重要性

泛化能力是指模型对未见过数据的处理能力。训练集用来训练模型参数，使得模型能在训练集上获得最小化误差。然而，如果模型仅在训练集上表现良好，但在未见过的测试集上表现不佳，这表明模型可能过度拟合了训练数据，泛化能力较差。因此，通过测试集的评估，可以帮助我们发现并解决模型的过拟合问题。

3.1.2 划分策略与方法

训练集与测试集的划分可以采用不同的方法，以下为几种常见的划分策略：

简单随机划分：数据集中每个样本都有相同的机会被选为训练集或测试集。
分层随机划分：保留类别比例，确保训练集和测试集中各个类别的比例相同。
时间序列划分：特别适用于时间相关数据，先按时间顺序排列数据，然后根据时间点将数据分为训练集和测试集。

代码块示例展示了如何在Python中使用scikit-learn库进行数据的划分：

from sklearn.model_selection import train_test_split

# 假设X是特征数据，y是目标标签
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

在这段代码中， train_test_split 函数将数据集分为训练集和测试集，其中 test_size=0.2 指定了测试集大小占总体数据集的20%。

3.2 交叉验证与模型选择

交叉验证是机器学习中评估模型泛化能力的常用技术。通过交叉验证，我们可以更高效地使用有限的数据集，并对模型选择和模型评估提供更稳定的结果。

3.2.1 K折交叉验证的基本原理

K折交叉验证是将数据集分为K个大小相同的子集，然后进行K次训练和测试。每一次，一个子集被作为测试集，其余的K-1个子集作为训练集。模型的最终性能评估是通过K次训练和测试结果的平均值来确定的。

3.2.2 选择最佳模型参数

选择最佳模型参数是通过模型选择技术完成的。网格搜索是常用的一种方法，通过遍历多个参数组合，结合交叉验证，来选择最佳的模型参数。

代码块示例展示了如何在Python中使用网格搜索进行模型参数调优：

from sklearn.model_selection import GridSearchCV

# 假设我们有一个kNN模型实例
knn = KNeighborsClassifier()

# 定义参数的网格
param_grid = {'n_neighbors': [3, 5, 7, 9], 'weights': ['uniform', 'distance']}

# 创建GridSearchCV实例，使用K折交叉验证
grid_search = GridSearchCV(knn, param_grid, cv=5)

# 对模型进行拟合
grid_search.fit(X_train, y_train)

# 输出最佳参数和最佳分数
print("Best parameters:", grid_search.best_params_)
print("Best score:", grid_search.best_score_)

在上述代码中， GridSearchCV 对象将使用5折交叉验证来遍历 n_neighbors 和 weights 两个参数的所有可能组合，并输出最佳参数和最佳分数。

通过3.1和3.2章节的讨论，我们了解了训练集和测试集划分的重要性，评估模型泛化能力的策略，以及通过交叉验证选择最佳模型参数的方法。下一章将深入探讨kNN算法在Python中的实现方式，包括基础版本的编写、使用NumPy库计算距离等技术细节。

4. kNN算法在Python中的实现

4.1 编写kNN算法基础版本

kNN（k-Nearest Neighbors）算法是一种基于实例的学习方法，用于分类和回归。在分类问题中，一个样本的类别是由其最近的k个邻居的类别来决定的。理解kNN算法的实现，有助于我们更好地掌握其工作原理及适用场景。

4.1.1 算法流程与伪代码

kNN算法的步骤非常直观：

计算测试点与每个点之间的距离。
按照距离排序，找出最近的k个点。
对这k个点的标签进行投票，将票数最多的标签分配给测试点。

伪代码如下：

function kNN(train_data, test_point, k):
    distances = []
    for point in train_data:
        dist = calculate_distance(point, test_point)
        distances.append((dist, point.label))
    distances.sort(key=lambda x: x[0])
    neighbors = distances[:k]
    result_label = max(set([neighbor[1] for neighbor in neighbors]), key=neighbors.count)
    return result_label

calculate_distance 函数需要我们根据距离度量选择来实现，比如欧几里得距离。

4.1.2 Python代码实现与解释

下面是一个简单的kNN算法的Python实现。

import numpy as np

def euclidean_distance(point1, point2):
    """计算两个点的欧几里得距离"""
    return np.sqrt(np.sum((np.array(point1) - np.array(point2))**2))

def k_nearest_neighbors(train_data, test_point, k):
    """kNN算法实现"""
    distances = []
    for data_point in train_data:
        dist = euclidean_distance(data_point[:-1], test_point)
        distances.append((dist, data_point[-1]))
    distances.sort(key=lambda x: x[0])
    neighbors = distances[:k]
    labels = [neighbor[-1] for neighbor in neighbors]
    # 最简单的投票法
    result_label = max(set(labels), key=labels.count)
    return result_label

在这里， train_data 是一个二维数组，其中每行代表一个数据点，最后一个元素是标签。 test_point 是我们要分类的测试点， k 是我们要查找的邻居数。这个函数返回最频繁出现的标签作为结果。

4.2 使用NumPy库计算距离

NumPy是Python中用于科学计算的基础包，其提供了高效的数组操作能力和数学运算功能。为了提高计算距离的效率，我们可以利用NumPy库来进行向量化操作。

4.2.1 NumPy库的安装与介绍

NumPy可以通过pip进行安装：

pip install numpy

NumPy库中主要包含了强大的N维数组对象，以及针对这些数组的操作和函数。我们用NumPy的数组和向量化功能来提高距离计算的效率。

4.2.2 实现距离计算的函数

利用NumPy进行向量化计算，可以一次性计算出训练数据中所有点与测试点之间的距离。

def vectorized_euclidean_distance(train_data, test_point):
    """向量化计算欧几里得距离"""
    train_points = train_data[:, :-1].astype(np.float32)
    test_point = np.array(test_point).astype(np.float32)
    return np.sqrt(np.sum((train_points - test_point) ** 2, axis=1))

# 注意，我们此处假设train_data最后一列是标签，前面的列是特征。
# 另外，我们需要将标签存储在一个单独的列表中
train_labels = train_data[:, -1].tolist()
train_data = train_data[:, :-1]

# 当有一个新的测试点的时候
test_point = [1, 2, 3]  # 示例数据点
distances = vectorized_euclidean_distance(train_data, test_point)

在这个函数中，我们首先将数据转换为NumPy数组，并将特征与标签分离。然后计算与每个点的距离并返回结果。

接下来，我们需要对这些距离进行排序，并按照距离选择最近的k个邻居进行投票，决定最终的分类标签。这部分的实现已经在前面的基础版本中详细描述过。

至此，我们已经实现了kNN算法的基础版本，并展示了如何使用NumPy库来加速距离计算。下一章节中，我们将探讨如何使用Scikit-learn库来实现kNN分类，它能更方便地处理数据预处理和模型训练等步骤。

5. Scikit-learn库实现kNN分类

5.1 Scikit-learn库概述

5.1.1 安装与导入Scikit-learn

Scikit-learn 是一个强大的Python机器学习库，它支持各种监督和非监督学习算法。安装Scikit-learn非常简单，可以通过Python的包管理工具 pip 来安装。

pip install -U scikit-learn

安装完成后，我们可以使用Python的导入语句将其引入到我们的项目中。

from sklearn import neighbors

5.1.2 Scikit-learn中的kNN分类器

Scikit-learn 提供了一个方便易用的kNN分类器，位于 sklearn.neighbors 模块中。使用这个分类器，我们不需要手动实现距离计算和投票逻辑，库函数已经为我们封装好了一切。

下面是一个简单的例子，展示如何使用Scikit-learn的 KNeighborsClassifier 类。

from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载iris数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建kNN分类器实例
knn = KNeighborsClassifier(n_neighbors=3)

# 训练模型
knn.fit(X_train, y_train)

# 预测测试集结果
predictions = knn.predict(X_test)

在上面的代码中，我们首先导入了必要的类和函数，然后加载了iris数据集。接着，我们划分了训练集和测试集，创建了一个kNN分类器实例，并设置邻居数为3。之后，我们使用训练集数据训练模型，并对测试集数据进行了预测。

5.2 实际操作与示例分析

5.2.1 加载数据集与预处理

在使用Scikit-learn进行kNN分类之前，我们需要加载和预处理数据集。通常，数据预处理包括处理缺失值、异常值、标准化或归一化数据等。

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 加载乳腺癌数据集
cancer = load_breast_cancer()
X, y = cancer.data, cancer.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

在上面的例子中，我们加载了乳腺癌数据集，并划分了训练集和测试集。我们使用 StandardScaler 对数据进行了标准化处理，这是非常关键的一步，因为在kNN算法中，距离计算对特征的尺度非常敏感。

5.2.2 构建kNN模型与预测

构建kNN模型是通过创建 KNeighborsClassifier 实例完成的。在模型建立之后，我们就可以利用训练集数据来训练它，并使用训练好的模型对测试集数据进行预测。

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 创建kNN分类器实例
knn = KNeighborsClassifier(n_neighbors=5)

# 训练模型
knn.fit(X_train_scaled, y_train)

# 预测测试集结果
predictions = knn.predict(X_test_scaled)

# 计算准确率
accuracy = accuracy_score(y_test, predictions)
print(f"Model Accuracy: {accuracy * 100:.2f}%")

在上面的代码中，我们创建了一个k值为5的kNN分类器，并用标准化后的训练集数据训练模型。然后，我们使用该模型对测试集数据进行了预测，并计算了模型的准确率。

k值的选择非常重要，它会影响到模型的性能。过大的k值会导致模型过于简化（称为"过平滑"），而过小的k值会使模型对噪声和异常值变得敏感（称为"过拟合"）。接下来的章节将讨论如何为模型选择最佳的k值。

6. 模型性能评估与优化

6.1 模型性能评估指标

在机器学习领域，模型的性能评估是检验模型效果的关键步骤。我们通常使用多种指标来衡量模型的预测能力，常见的有准确率、召回率以及F1分数。

6.1.1 准确率、召回率与F1分数

准确率(Accuracy) 是指模型预测正确的样本数占总样本数的比例。它是一个直观的性能指标，但在不平衡数据集中容易产生误导。
召回率(Recall) ，又称为真正率，指模型正确识别出的正样本数占实际正样本总数的比例。召回率高意味着模型在识别正样本时较为灵敏。
F1分数 是准确率和召回率的调和平均数。F1分数综合考虑了模型的精确性和召回性，是评估分类性能的一个重要指标，尤其适用于正负样本分布不均的情况。

6.1.2 混淆矩阵的理解与应用

混淆矩阵(Confusion Matrix) 是一种表格，用于描述分类模型的性能。它列出了正确分类的样本数以及不同类型错误分类的样本数。通过混淆矩阵，我们可以得到以下指标：

真正例(True Positive, TP) ：模型正确预测为正的样本数。
假正例(False Positive, FP) ：模型错误预测为正的样本数。
真负例(True Negative, TN) ：模型正确预测为负的样本数。
假负例(False Negative, FN) ：模型错误预测为负的样本数。

根据这些值，我们可以计算出准确率、召回率以及F1分数等性能指标。

6.2 k值参数调优方法

6.2.1 k值对模型的影响

在kNN算法中，k值是一个重要的超参数，它决定了最近邻的数量。一个较小的k值可能会导致模型对噪声过于敏感，而一个较大的k值可能会使得模型对局部数据点的特性不够敏感。调整k值能影响分类器的泛化能力与决策边界。

6.2.2 调优策略与网格搜索

为了找到最佳的k值，常用的方法是 网格搜索(Grid Search) 。通过构建一个k值的候选集，我们可以在指定范围内尝试每一个可能的k值，并使用交叉验证来评估每个k值对应模型的性能。根据模型性能的评估指标，比如F1分数，我们可以选择最佳的k值。

示例代码：使用GridSearchCV进行k值优化

以下是一个使用Scikit-learn中GridSearchCV函数进行k值优化的Python代码示例：

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier

# 假设X_train和y_train已经准备好了
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 设置k值的候选集
param_grid = {'n_neighbors': range(1, 31)}

# 初始化kNN分类器
knn = KNeighborsClassifier()

# 初始化网格搜索对象，使用5折交叉验证
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring='f1')

# 进行网格搜索
grid_search.fit(X_train, y_train)

# 输出最佳参数与对应的分数
print('最佳k值:', grid_search.best_params_)
print('最佳F1分数:', grid_search.best_score_)

6.3 实际问题中的kNN应用实例（水果分类）

6.3.1 水果分类问题的提出

为了更具体地理解kNN的应用，我们以一个水果分类问题为例。假设我们有一组数据，包含了不同水果的尺寸、重量、颜色等特征，我们的目标是根据这些特征来分类不同的水果。

6.3.2 数据集的处理与特征选择

首先，我们需要对数据集进行预处理，包括数据清洗、标准化以及特征选择。数据清洗可能涉及处理缺失值和异常值，标准化确保每个特征都处于同一量级，而特征选择则是基于领域知识或模型选择最佳的特征。

6.3.3 模型的应用与结果解读

接下来，我们可以使用kNN算法对预处理后的数据进行分类。通过前面提到的网格搜索找到最佳的k值后，我们就可以构建kNN模型，并在测试集上进行预测。

# 使用最佳k值构建模型并预测测试集
best_knn = grid_search.best_estimator_
y_pred = best_knn.predict(X_test)

# 假设我们有混淆矩阵以及相关评估指标的函数
from sklearn.metrics import classification_report, confusion_matrix

# 打印分类报告
print(classification_report(y_test, y_pred))

# 打印混淆矩阵
print(confusion_matrix(y_test, y_pred))

这段代码首先使用最佳的k值构建了一个kNN模型，并对测试集进行了预测。然后，它打印出分类报告和混淆矩阵，提供了模型性能的详细解读。通过这些输出，我们可以对模型在测试集上的表现进行深入分析，从而对模型进行进一步的优化和调整。

本文还有配套的精品资源，点击获取