训练数据、测试数据、验证数据、评价数据

最新推荐文章于 2025-04-14 13:36:28 发布

程序员笑武

最新推荐文章于 2025-04-14 13:36:28 发布

阅读量2.1k

点赞数 28

文章标签：人工智能深度学习 microsoft python 算法

本文链接：https://blog.csdn.net/m0_59164304/article/details/143259004

版权

训练数据 training data

定义：

用于训练机器学习模型的输入数据样本子集。

GB/T 41867-2022

训练数据 (Training Data): 用于训练模型的数据集，使模型学习数据中的模式。

ChatGPT

import numpy as np``X_train = np.array([[1, 2], [2, 3], [3, 4]])``y_train = np.array([0, 1, 1])

测试数据 test data

测试数据 (Testing Data): 用于评估模型性能的数据集，模型在训练时未见过。

X_test = np.array([[4, 5], [5, 6]])``y_test = np.array([1, 1])

验证数据 validation data

验证数据 (Validation Data): 在训练过程中用于调整模型参数的数据集，帮助避免过拟合。

X_val = np.array([[1, 3], [2, 2]])``y_val = np.array([0, 1])

评价数据

定义：

用于评估最终机器学习模型性能的数据。

GB/T 41867-2022

评价数据 (Evaluation Data): 用于最终评估模型的性能，通常是测试集或专门划分的评估集。

# 模型训练和评估的示例``from sklearn.model_selection import train_test_split``from sklearn.linear_model import LogisticRegression``X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])``y = np.array([0, 0, 1, 1, 1])``   ``#划分数据集``X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4)``X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5)``   ``model = LogisticRegression()``#训练模型``model.fit(X_train, y_train)``   ``print(model.score(X_test, y_test))  # 评价数据的性能``

注1：测试数据与训练数据、验证数据无交集。

注2：验证数据与测试数据是不重复的,通常也与训练数据不重复。但是，在没有足够的数据进行三种方式的训练、验证和测试集拆分的情况下，数据只被分成两个集——一个测试集和一个训练或验证集。交叉验证或自助法是用于从训练或验证集中生成单独的训练和验证集的常用方法。

注3：验证数据用于调优超参数或验证某些算法选择,直至在专家系统中包含给定规则的效果。

二、理解与复述

在机器学习中，训练数据、测试数据、验证数据和评价数据是用于****构建、评估和优化模型的关键组成部分。

1. 训练数据 (Training Data)

训练数据是用于训练机器学习模型的数据集。这些数据包含特征（输入）和标签（输出）。
通过训练数据，模型可以学习如何将输入映射到输出，从而捕捉数据中的模式。
训练数据的使用通常是通过模型的拟合过程，将数据传递给算法，使其更新内部参数。
训练数据是模型学习的基础。训练数据的质量和数量直接影响模型的性能。

2. 验证数据 (Validation Data)

验证数据是用于调整模型参数的数据集。在训练过程中，模型未见过的部分数据。
通过使用验证数据，可以监控模型的性能，以避免过拟合（即模型在训练数据上表现很好，但在新数据上表现不佳）。
在每个训练周期结束后，使用验证数据来评估模型性能，并根据结果调整模型超参数。
验证数据有助于在模型完全训练完成之前进行调整和优化，提高模型的泛化能力。

3. 测试数据 (Testing Data)

测试数据是完全独立于训练过程的数据集，用于最终评估模型的性能。
测试数据帮助评估模型在真实世界场景中的泛化能力，确保模型能够处理未见过的数据。
训练和验证后，使用测试数据来计算模型的最终性能指标，如准确率、精确率等。
测试数据提供了模型在未见过的数据上的表现情况，是评估模型泛化能力的关键。

4. 评价数据 (Evaluation Data)

评价数据通常是测试数据的一部分，专门用于评估模型性能的最终结果。
确保模型在实际应用中能够提供可靠的输出，是评估模型的重要步骤。
在模型训练和验证完成后，使用评价指标对测试数据的预测进行评估。
评价数据提供了模型在实际应用中可能遇到的数据上的性能指标，是模型部署前的最后一步评估。

在实际应用中，数据集通常被划分为以下部分：

训练集：用于训练模型。

验证集：有时与训练集一起使用，用于模型选择和超参数调整。

测试集：完全独立于训练过程，用于最终评估模型的泛化能力。

三、代码示例

用一个使用Python的scikit-learn库来实现逻辑回归分类器的代码作为示例。

# 导入numpy库，并给它取一个别名np，这样在代码中就可以用np来引用numpy库的函数和方法。``import numpy as np``# 从scikit-learn的model_selection模块导入train_test_split函数，用于将数据集划分为训练集和测试集。``from sklearn.model_selection import train_test_split``# 从scikit-learn的linear_model模块导入LogisticRegression类，用于创建逻辑回归模型。``from sklearn.linear_model import LogisticRegression``# 从scikit-learn的metrics模块导入accuracy_score和classification_report函数，用于评估模型性能。``from sklearn.metrics import accuracy_score, classification_report``# 创建一个特征数组X，包含8个二维点，每个点有两个特征值。``X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6], [6, 7], [7, 8], [8, 9]])``# 创建一个标签数组y，包含8个标签，0和1分别代表两个不同的类别。``y = np.array([0, 0, 0, 1, 1, 1, 1, 1])``# 使用train_test_split函数将数据集划分为训练集和临时集（这里临时集包括验证集和测试集）。``# test_size=0.2表示临时集占总数据集的20%。``# random_state=42是一个随机种子，确保每次划分的结果都是一样的。``X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.2, random_state=42)``# 再次使用train_test_split函数将临时集划分为验证集和测试集。``# test_size=0.5表示测试集占临时集的50%，也就是总数据集的10%。``# random_state=42同样确保每次划分的结果一致。``X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)``# 创建一个LogisticRegression模型实例。``model = LogisticRegression()``# 使用fit方法训练模型，传入训练集的特征和标签。``model.fit(X_train, y_train)``# 使用模型的predict方法在验证集上进行预测。``val_predictions = model.predict(X_val)``# 使用accuracy_score函数计算验证集上的准确率。``val_accuracy = accuracy_score(y_val, val_predictions)``# 打印验证集上的准确率。``print(f'Validation Accuracy: {val_accuracy}')``# 使用模型的predict方法在测试集上进行预测。``test_predictions = model.predict(X_test)``# 使用accuracy_score函数计算测试集上的准确率。``test_accuracy = accuracy_score(y_test, test_predictions)``# 打印测试集上的准确率。``print(f'Test Accuracy: {test_accuracy}')``# 使用classification_report函数生成一个分类报告，包括主要的分类指标，如精确度、召回率、F1分数等。``print("Classification Report:\n", classification_report(y_test, test_predictions))

代码执行结果如下：

在这里插入图片描述

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述