基于 AI 工具实现机器学习案例教程：鸢尾花分类

最新推荐文章于 2025-05-16 14:05:46 发布

Lzy_.

最新推荐文章于 2025-05-16 14:05:46 发布

阅读量784

点赞数 26

文章标签：人工智能机器学习分类开发语言 python 智能学习

本文链接：https://blog.csdn.net/m0_74867279/article/details/147950655

版权

一、学习过程总结

（一）理论知识积累

在机器学习算法案例的学习初始阶段，我专注于构建坚实的理论基础。首先，透彻理解了机器学习的核心概念，诸如监督学习，它依赖带有标签的数据集来训练模型，旨在学习输入特征与输出标签之间的映射关系；无监督学习则面对无标签数据，致力于发现数据中的内在结构和模式，像聚类算法便是典型应用。

对于模型评估指标，我进行了深入研究。准确率衡量模型正确预测的样本比例，但在类别不平衡问题中可能存在误导性；精确率聚焦于预测为正例的样本中实际为正例的比例，在垃圾邮件分类等场景下，对于筛选真正相关信息至关重要；召回率强调实际正例中被正确识别的比例，在医疗诊断中，高召回率能尽量避免漏诊；F1 - 分数作为精确率和召回率的调和平均数，综合反映了模型性能。

此外，常见机器学习算法原理也是学习重点。决策树算法基于信息增益、信息增益比或基尼指数等指标，递归地对特征空间进行划分，构建树形结构以实现分类或回归任务。其优势在于可解释性强，能直观呈现决策过程；K 近邻（KNN）算法遵循 “近朱者赤，近墨者黑” 原则，通过计算样本间的距离（如欧氏距离、曼哈顿距离），依据 K 个最近邻居的类别来确定目标样本类别，简单易懂但计算开销较大；逻辑回归虽名为 “回归”，实则是用于二分类及多分类问题的经典算法，它借助对数几率函数将线性回归的输出映射到概率空间，通过最大化似然函数来估计模型参数。

（二）算法实践操作

在理论学习基础上，我积极投入算法实践。以 Python 作为主要编程语言，借助强大的科学计算和机器学习库开展工作。scikit - learn库提供了丰富且易用的机器学习算法实现，是我实践的核心工具之一。通过它，我能够便捷地加载鸢尾花数据集，该数据集作为分类任务的经典案例，包含 150 个样本，每个样本由萼片长度、萼片宽度、花瓣长度、花瓣宽度四个特征描述，对应三种鸢尾花品种（山鸢尾、变色鸢尾、维吉尼亚鸢尾）。

pandas库在数据处理环节发挥了关键作用。我使用它读取、清洗和预处理数据，处理可能存在的缺失值（如通过均值、中位数或众数填充）、异常值（利用统计方法或可视化手段识别并处理），并进行数据类型转换、特征工程等操作。例如，对数值型特征进行归一化或标准化处理，以确保不同特征在模型训练中具有同等重要性。numpy库则为数值计算提供了高效支持，无论是数组操作还是数学运算，都极大提升了代码执行效率。

在实践过程中，我针对不同算法进行了大量参数调整实验。以 KNN 算法为例，K 值的选择对模型性能影响显著。我通过交叉验证的方式，尝试不同 K 值（如从 3 到 15 ），观察模型在训练集和测试集上的准确率、精确率、召回率等指标变化，从而确定最优 K 值。类似地，对于决策树算法，我调整了max_depth（最大深度）、min_samples_split（节点再划分所需最小样本数）等参数，深入理解这些参数对模型复杂度和泛化能力的影响。

（三）案例分析复盘

每完成一个算法实践案例，我都会进行细致的分析复盘。以鸢尾花分类案例来说，我会对比模型在训练集和测试集上的表现。若模型在训练集上准确率极高，但在测试集上大幅下降，这表明可能出现了过拟合现象。此时，我会深入剖析原因，可能是模型过于复杂（如决策树深度过深），学习到了训练数据中的噪声和特殊细节，而未能掌握数据的通用规律。针对过拟合，我尝试采用剪枝（预剪枝、后剪枝）、增加训练数据量、降低特征维度等方法进行优化。

反之，如果模型在训练集和测试集上表现都不佳，欠拟合的可能性较大，这意味着模型过于简单，无法捕捉数据中的复杂关系。此时，我会考虑更换更复杂的模型，或者对数据进行更深入的特征工程，提取更具代表性的特征。

此外，我还积极与同学、老师交流讨论，分享彼此在案例实践中的经验和遇到的问题。通过借鉴他人的思路和解决方案，我拓宽了自己解决问题的视野，对机器学习算法的理解和应用能力得到了进一步提升。

二、借助 AI 工具实现机器学习案例

（一）设计思路

本次选择鸢尾花分类作为具体机器学习案例。鸢尾花数据集结构清晰，特征维度适中，是入门级分类任务的理想选择。我的设计思路围绕利用 AI 工具辅助，实现从数据预处理、模型选择与训练，到模型评估和预测的全流程。

在数据预处理阶段，确保数据的完整性和一致性，处理缺失值、异常值，对特征进行标准化或归一化，为后续模型训练提供高质量的数据。模型选择上，基于对各种算法的了解以及鸢尾花数据集的特点，最终确定决策树算法。决策树算法的可解释性强，能直观展示特征对分类结果的影响，并且在该数据集上通常能取得较好的性能。

模型训练过程中，通过调整决策树的相关参数，如max_depth、min_samples_split、min_samples_leaf等，结合交叉验证技术，寻找最优模型参数组合，以提高模型的泛化能力。模型评估使用多种指标，包括准确率、精确率、召回率和 F1 - 分数，全面衡量模型性能。最后利用训练好的最优模型对新数据进行预测。

（二）使用 AI 工具的方法

我主要使用 ChatGPT 作为 AI 辅助工具，具体操作步骤如下：

明确需求描述：向 ChatGPT 发送清晰、详细的需求指令，例如：“我要使用 Python 和scikit - learn库对鸢尾花数据集进行决策树分类。需要完整的代码实现，包括从数据加载、数据清洗（假设存在可能的缺失值和异常值处理）、特征工程（如标准化）、模型训练（使用决策树算法，并且要进行交叉验证寻找最优参数）、模型评估（使用准确率、精确率、召回率和 F1 - 分数）到模型预测的全流程。请尽量详细地给出代码，并对关键步骤进行注释。”
深入细节询问：对于 ChatGPT 生成的代码，若存在不理解的部分，比如决策树算法中某个参数的具体作用以及在该案例中的合理取值范围，我会进一步提问，如：“代码中DecisionTreeClassifier的min_samples_leaf参数在鸢尾花分类场景下如何影响模型性能，怎样通过实验确定合适的值？”
代码优化调整：根据 ChatGPT 的解释和建议，结合自己对机器学习理论和该案例的理解，对代码进行优化和调整。例如，如果 ChatGPT 建议尝试不同的特征工程方法来提升模型性能，我会按照建议进行实验，对比不同方法下模型的评估指标，选择最优方案。

（三）代码展示

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 加载鸢尾花数据集
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
data['target'] = iris.target

# 数据清洗与预处理
# 检查并处理缺失值（这里假设不存在缺失值，实际可根据情况处理）
if data.isnull().values.any():
    data = data.fillna(data.median())

# 检查并处理异常值（简单的基于四分位数的方法）
for col in data.columns[: - 1]:
    Q1 = data[col].quantile(0.25)
    Q3 = data[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    data = data[(data[col] >= lower_bound) & (data[col] <= upper_bound)]

# 特征工程 - 标准化
scaler = StandardScaler()
X = scaler.fit_transform(data.drop('target', axis = 1))
y = data['target']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

# 初始化决策树模型并进行参数调优（使用网格搜索和交叉验证）
param_grid = {
   'max_depth': [3, 4, 5, 6],
   'min_samples_split': [2, 5, 10],
   'min_samples_leaf': [1, 2, 4]
}
model = DecisionTreeClassifier(random_state = 42)
grid_search = GridSearchCV(model, param_grid, cv = 5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# 使用最优参数的模型进行训练
best_model = grid_search.best_estimator_
best_model.fit(X_train, y_train)

# 预测
y_pred = best_model.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

print(f"模型在测试集上的准确率为: {accuracy}")
print(f"模型在测试集上的精确率为: {precision}")
print(f"模型在测试集上的召回率为: {recall}")
print(f"模型在测试集上的F1 - 分数为: {f1}")

（四）运行结果

运行上述代码后，在控制台会依次输出模型在测试集上的准确率、精确率、召回率和 F1 - 分数。例如：

模型在测试集上的准确率为: 0.9555555555555556
模型在测试集上的精确率为: 0.9583333333333334
模型在测试集上的召回率为: 0.9555555555555556
模型在测试集上的F1 - 分数为: 0.9558823529411765

这些指标综合反映了模型对鸢尾花分类任务的执行效果，准确率较高表明模型整体预测正确的比例较大；精确率体现了预测为正例的样本中实际为正例的可靠性；召回率表示实际正例被正确识别的程度；F1 - 分数作为精确率和召回率的综合体现，更全面地评估了模型性能。

三、总结

在本次基于机器学习算法案例的学习与实践中，我经历了理论奠基、实践探索与复盘提升的过程。理论层面，我深入钻研了机器学习的基础概念、评估指标以及常见算法原理，为后续实践筑牢根基。实践操作里，我借助 Python 的scikit - learn、pandas、numpy等库，对鸢尾花数据集展开实操，通过不断调整算法参数并观察模型表现，积累了丰富的调优经验。案例复盘环节，我与他人交流探讨，深入剖析模型在训练和测试过程中的优劣，进一步提升了解决问题的能力。

在借助 AI 工具（ChatGPT）实现鸢尾花分类案例时，我掌握了一套行之有效的方法。从精准描述需求，到对生成代码细节的深入追问，再到结合自身理解进行优化调整，AI 工具为我提供了诸多新思路和代码实现方案，极大地提高了开发效率。最终实现的代码涵盖了数据清洗、特征工程、模型训练、参数调优、评估与预测的完整流程，并通过运行结果的各项指标全面评估了模型性能。

我将整个学习实践过程整理成教程发布在技术博客上，旨在不仅巩固自身所学，也为其他学习者提供借鉴。此次经历让我深刻认识到机器学习领域学无止境，理论与实践结合以及合理借助工具的重要性，也激励我在后续学习中不断探索、持续进步。