loss(损失函数)在训练集(train loss)和测试集(test loss)上出现的问题总结

 在机器学习的过程中,我们在模型建立时,在实际测试集和训练集上误差函数可能会出现变化不一致情况。下面我简单的总结一下


在程序运行过程中

当train loss不断下降,test loss也不断下降:网络仍在学习,让他继续学;

train loss 不断下降,test loss趋于不变:说明网络过拟合;

train loss 趋于不变,test loss不断下降:不用想数据集250%有问题;

train loss 趋于不变,test loss趋于不变:说明学习遇到瓶颈,需要减小学习率或批量数目;或者是数据集有问题(数据集标注错误数据比较多)

train loss 不断上升,test loss不断上升:说明网络结构设计不当,训练超参数设置不当,数据集经过清洗等问题。

 


下面是我遇到的一个简答题(和上面的关系不大

当一个模型训练完成后发现训练集上的loss非常高,请问如何在不对代码进行全面排查的前提下,怎样最快定位是模型本身的拟合能力不足还是代码的实现存在某种错误。

答:使用一个额外的测试集对代码进行测试,如果使用测试集运行后的结果的结果是loss低,趋于正常。那么说明是模型本身拟合不足的问题,如果使用测试集运行后的结果的结果是loss仍然很高,我们继续更换测试集,如果结果仍然很高,那我们可以断定是代码存在某种错误

  • 28
    点赞
  • 99
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
以下是使用PyTorch绘制cifar100图像分类实验训练集测试集loss和acc曲线的示例代码: ```python import torch import torch.nn as nn import torch.optim as optim import torchvision import torchvision.transforms as transforms import matplotlib.pyplot as plt # 定义超参数 batch_size = 128 lr = 0.1 momentum = 0.9 weight_decay = 1e-4 epochs = 50 # 加载数据集 train_transform = transforms.Compose([ transforms.RandomCrop(32, padding=4), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.5071, 0.4867, 0.4408), (0.2675, 0.2565, 0.2761)) ]) test_transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5071, 0.4867, 0.4408), (0.2675, 0.2565, 0.2761)) ]) train_set = torchvision.datasets.CIFAR100(root='./data', train=True, download=True, transform=train_transform) train_loader = torch.utils.data.DataLoader(train_set, batch_size=batch_size, shuffle=True, num_workers=2) test_set = torchvision.datasets.CIFAR100(root='./data', train=False, download=True, transform=test_transform) test_loader = torch.utils.data.DataLoader(test_set, batch_size=batch_size, shuffle=False, num_workers=2) # 定义模型 class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d(3, 64, 3, padding=1) self.bn1 = nn.BatchNorm2d(64) self.relu1 = nn.ReLU(inplace=True) self.conv2 = nn.Conv2d(64, 128, 3, padding=1) self.bn2 = nn.BatchNorm2d(128) self.relu2 = nn.ReLU(inplace=True) self.conv3 = nn.Conv2d(128, 256, 3, padding=1) self.bn3 = nn.BatchNorm2d(256) self.relu3 = nn.ReLU(inplace=True) self.fc = nn.Linear(256 * 8 * 8, 100) def forward(self, x): x = self.conv1(x) x = self.bn1(x) x = self.relu1(x) x = self.conv2(x) x = self.bn2(x) x = self.relu2(x) x = self.conv3(x) x = self.bn3(x) x = self.relu3(x) x = x.view(-1, 256 * 8 * 8) x = self.fc(x) return x # 定义损失函数和优化器 net = Net() criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=lr, momentum=momentum, weight_decay=weight_decay) # 训练模型 train_loss_list = [] train_acc_list = [] test_loss_list = [] test_acc_list = [] for epoch in range(epochs): train_loss = 0 train_acc = 0 net.train() for i, (inputs, labels) in enumerate(train_loader): optimizer.zero_grad() outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() train_loss += loss.item() _, predicted = torch.max(outputs.data, 1) train_acc += (predicted == labels).sum().item() train_loss /= len(train_loader.dataset) train_acc /= len(train_loader.dataset) train_loss_list.append(train_loss) train_acc_list.append(train_acc) test_loss = 0 test_acc = 0 net.eval() with torch.no_grad(): for inputs, labels in test_loader: outputs = net(inputs) loss = criterion(outputs, labels) test_loss += loss.item() _, predicted = torch.max(outputs.data, 1) test_acc += (predicted == labels).sum().item() test_loss /= len(test_loader.dataset) test_acc /= len(test_loader.dataset) test_loss_list.append(test_loss) test_acc_list.append(test_acc) print('Epoch [%d/%d], Train Loss: %.4f, Train Acc: %.4f, Test Loss: %.4f, Test Acc: %.4f' % (epoch+1, epochs, train_loss, train_acc, test_loss, test_acc)) # 绘制loss和acc曲线 plt.plot(range(epochs), train_loss_list, label='train') plt.plot(range(epochs), test_loss_list, label='test') plt.xlabel('Epoch') plt.ylabel('Loss') plt.legend() plt.show() plt.plot(range(epochs), train_acc_list, label='train') plt.plot(range(epochs), test_acc_list, label='test') plt.xlabel('Epoch') plt.ylabel('Accuracy') plt.legend() plt.show() ``` 运行该代码,即可绘制出cifar100图像分类实验训练集测试集loss和acc曲线。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值