训练集，验证集，测试集的作用

最新推荐文章于 2024-08-09 11:14:11 发布

挨打且不服66

最新推荐文章于 2024-08-09 11:14:11 发布

阅读量217

点赞数 7

分类专栏：大模型与推荐系统文章标签： python

本文链接：https://blog.csdn.net/lf_78910jqk/article/details/140396592

版权

大模型与推荐系统专栏收录该内容

14 篇文章 1 订阅

订阅专栏

训练集 (Training Set), 验证集 (Validation Set) 和测试集 (Test Set) 是机器学习和深度学习模型开发过程中不可或缺的部分。它们的主要作用和区别如下：

训练集：
- 作用：用于训练模型，调整模型的参数（如神经网络的权重）。
- 示例：如果你在训练一个猫狗分类器，训练集中包含大量标记为“猫”或“狗”的图片。模型通过这些数据学习如何区分猫和狗。
验证集：
- 作用：用于调参和选择最佳模型。通过验证集，我们可以评估模型在未见过的数据上的表现，防止过拟合。
- 示例：在训练猫狗分类器时，验证集中的数据也标记为“猫”或“狗”，但这些数据不用于训练，而是用于在训练过程中评估模型性能。
测试集：
- 作用：用于评估最终模型的性能。测试集的结果代表了模型在实际应用中的表现。
- 示例：在猫狗分类器中，测试集包含的图片同样标记为“猫”或“狗”，但这些数据既不用于训练，也不用于调参，而是用于最终评估模型。

为什么要分为这三个集？假设我们不分开数据集，将所有数据用于训练，那么模型可能会记住训练数据，而无法泛化到新数据（即过拟合）。验证集和测试集的引入能够帮助我们检测这种情况，并选择或调整模型以提高其泛化能力。

下面是一个使用PyTorch实现简单神经网络并进行训练、验证和测试的示例代码，每行都有详细注释：

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, random_split, TensorDataset

# 假设我们有一些数据
data = torch.randn(1000, 20)  # 1000个样本，每个样本20个特征
labels = torch.randint(0, 2, (1000,))  # 二分类任务，标签为0或1

# 创建一个TensorDataset
dataset = TensorDataset(data, labels)

# 将数据集划分为训练集、验证集和测试集
train_size = int(0.7 * len(dataset))  # 70%的数据用于训练
val_size = int(0.15 * len(dataset))  # 15%的数据用于验证
test_size = len(dataset) - train_size - val_size  # 剩余的15%用于测试

train_dataset, val_dataset, test_dataset = random_split(dataset, [train_size, val_size, test_size])

# 创建DataLoader以便于批量训练和评估
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

# 定义一个简单的神经网络
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(20, 64)
        self.fc2 = nn.Linear(64, 32)
        self.fc3 = nn.Linear(32, 1)
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = torch.sigmoid(self.fc3(x))
        return x

# 实例化神经网络，定义损失函数和优化器
model = SimpleNN()
criterion = nn.BCELoss()  # 二分类任务使用的损失函数
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 训练模型
num_epochs = 10
for epoch in range(num_epochs):
    model.train()  # 设置模型为训练模式
    for batch_data, batch_labels in train_loader:
        outputs = model(batch_data).squeeze()  # 前向传播
        loss = criterion(outputs, batch_labels.float())  # 计算损失
        optimizer.zero_grad()  # 清空梯度
        loss.backward()  # 反向传播
        optimizer.step()  # 更新参数
    
    # 在验证集上评估模型
    model.eval()  # 设置模型为评估模式
    val_loss = 0.0
    with torch.no_grad():  # 禁用梯度计算
        for batch_data, batch_labels in val_loader:
            outputs = model(batch_data).squeeze()  # 前向传播
            loss = criterion(outputs, batch_labels.float())  # 计算损失
            val_loss += loss.item()  # 累加损失
    
    print(f'Epoch {epoch+1}/{num_epochs}, Training Loss: {loss.item():.4f}, Validation Loss: {val_loss/len(val_loader):.4f}')

# 在测试集上最终评估模型
model.eval()  # 设置模型为评估模式
test_loss = 0.0
with torch.no_grad():  # 禁用梯度计算
    for batch_data, batch_labels in test_loader:
        outputs = model(batch_data).squeeze()  # 前向传播
        loss = criterion(outputs, batch_labels.float())  # 计算损失
        test_loss += loss.item()  # 累加损失

print(f'Test Loss: {test_loss/len(test_loader):.4f}')

这个示例展示了如何在PyTorch中划分数据集并训练、验证和测试一个简单的神经网络模型。通过这种方式，我们可以确保模型在不同的数据集上有良好的表现，从而提高模型的泛化能力。

挨打且不服66

关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
训练集，验证集，测试集的作用

为什么要分为这三个集？假设我们不分开数据集，将所有数据用于训练，那么模型可能会记住训练数据，而无法泛化到新数据（即过拟合）。验证集和测试集的引入能够帮助我们检测这种情况，并选择或调整模型以提高其泛化能力。训练集 (Training Set), 验证集 (Validation Set) 和测试集 (Test Set) 是机器学习和深度学习模型开发过程中不可或缺的部分。通过这种方式，我们可以确保模型在不同的数据集上有良好的表现，从而提高模型的泛化能力。
复制链接

扫一扫

专栏目录