在训练CNN时,loss稳定在-log(类别数)

在训练CNN时,loss稳定在log(类别数),是存在什么问题? 比如说二分类误差稳定在0.69,十分类误差稳定在2.302



首先,0.69, 2.302表明网络就是在随机的猜,这里一般都是因为用了交叉熵损失函数

此图像的alt属性为空;文件名为image.png

这里yi往往是1,最后就是1*log(yhat)

而如果是随机猜,预测值会接近1/n,即最后为log(1/n)=-log(n)

1.检查是否代码问题,是否有bug;调参数、learning rate等看看,

也很有可能先开始梯度太大,weight跑到了很远的地方(或者直接跑到了nan,这样loss也就nan了,所以可以先check 下loss)。 一般这个时候做gradient clip或者降低学习率就ok

2.最后一层输出不小心加了relu激活。这样可能导致输出值是0,如果用sigmoid那么求出的概率是0.5,-log0.5等于0.69。而且,由于relu输出值为0的时候,relu的导数为0,梯度没办法回传,因此就一直固定在0.69。

3.初始化是否使用了Xavier,还是使用的高斯初始化等工具。因为初始值决定了非凸优化的极值点。应该至少使用xavier这样的初始化策略。

4. 学习率是否过大,是否使用的sgd,可以尝试一下对学习率并不敏感的策略,比如adam优化

5. 可以尝试添加BN层加快收敛速度。



  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实验目的: 使用卷积神经网络(CNN)实现对MINIST手写字0-9的识别,掌握CNN在图像识别任务中的应用。 实验步骤: 1. 据集准备 使用MINIST手写据集,该据集包含60000个训练样本和10000个测试样本,每个样本都是28x28像素的灰度图像。可以使用PyTorch自带的torchvision.datasets.MNIST进行据集的加载。 2. 据预处理 对据集进行预处理,包括据增强和归一化操作。据增强可以提高模型的泛化能力,常见的据增强方式有旋转、平移、缩放、翻转等。归一化操作可以将像素值缩放到[0,1]之间,有利于训练模型。 ```python transform_train = transforms.Compose([ transforms.RandomRotation(10), transforms.RandomAffine(0, shear=10, scale=(0.8,1.2)), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ]) transform_test = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ]) trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform_train) trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True, num_workers=2) testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform_test) testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False, num_workers=2) ``` 3. 模型设计与训练 使用PyTorch搭建卷积神经网络模型,对手写字图像进行分。具体网络结构如下: ```python class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d(1, 32, 3, 1) self.conv2 = nn.Conv2d(32, 64, 3, 1) self.dropout1 = nn.Dropout2d(0.25) self.dropout2 = nn.Dropout2d(0.5) self.fc1 = nn.Linear(9216, 128) self.fc2 = nn.Linear(128, 10) def forward(self, x): x = self.conv1(x) x = F.relu(x) x = self.conv2(x) x = F.relu(x) x = F.max_pool2d(x, 2) x = self.dropout1(x) x = torch.flatten(x, 1) x = self.fc1(x) x = F.relu(x) x = self.dropout2(x) x = self.fc2(x) output = F.log_softmax(x, dim=1) return output ``` 模型训练过程: ```python device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") net = Net() net.to(device) criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=0.01, momentum=0.9) for epoch in range(10): # loop over the dataset multiple times running_loss = 0.0 for i, data in enumerate(trainloader, 0): # get the inputs; data is a list of [inputs, labels] inputs, labels = data[0].to(device), data[1].to(device) # zero the parameter gradients optimizer.zero_grad() # forward + backward + optimize outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() # print statistics running_loss += loss.item() if i % 100 == 99: # print every 100 mini-batches print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 100)) running_loss = 0.0 print('Finished Training') ``` 4. 模型测试 使用测试集对训练好的模型进行测试,并计算准确率。 ```python correct = 0 total = 0 with torch.no_grad(): for data in testloader: images, labels = data[0].to(device), data[1].to(device) outputs = net(images) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() print('Accuracy of the network on the 10000 test images: %d %%' % ( 100 * correct / total)) ``` 实验结果: 使用上述模型,在MNIST据集上进行训练,最终得到的准确率为98.94%。可以看出使用CNN实现手写字识别是非常有效的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值