在用vgg16做迁移学习时,fit函数中采用损失函数F.nll_loss()
def fit(epoch,model,data_loader,phase='training',volatile=False):#epoch参数在这里有什么用?
if phase == 'training':
model.train()
if phase =='validation':
model.eval()
volatile =True
running_loss = 0.0
running_correct = 0
for batch_idx,(data,target) in enumerate(data_loader):
if is_cuda:
data,target = data.cuda(),target.cuda()
data,target = Variable(data,volatile),Variable(target)#volatile在这里是?requires_grad
if phase =='training':
optimizer.zero_grad()
output = model(data)
loss = F.nll_loss(output,target)
running_loss += F.nll_loss(output,target,reduction='sum').item()
preds = output.data.max(dim=1,keepdim=True)[1]
running_correct+=preds.eq(target.data.view_as(preds)).cpu().sum()#eq用来判断二者是否相等
if phase == 'training':
loss.backward()
optimizer.step()
loss = running_loss/len(data_loader.dataset)
accuracy = 100.*running_correct/len(data_loader.dataset)
print(f"{phase} loss is {loss:{5}.{2}} and {phase} accuracy is {running_correct}/{len(data_loader.dataset)}{accuracy:{10}.{4}}")
return loss,accuracy
打印训练过程:

训练后发现loss都为nan,查阅资料后总结后有以下可能性:
1.学习率太高。
2.loss函数
3.对于回归问题,可能出现了除0 的计算,加一个很小的余项可能可以解决。
4.数据本身是否存在Nan,可以用numpy.any(numpy.isnan(x))检查一下input和target。
5.target本身应该是能够被loss函数计算的,比如sigmoid激活。函数的target应该大于0,同样的需要检查数据集。
检查数据集后未发现问题,但F.nll_loss()的使用网络结构条件似乎点醒了我:NLLLoss 的 输入 是一个对数概率向量和一个目标标签. 它不会为我们计算对数概率. 适合网络的最后一层是log_softmax。回头查看之前有效的网络价格,果然最后一层都是log_softmax。但调用的models.vgg16(),无法改变内部网络结构,所以换用损失函数F.cross_entropy()。

下面对两种损失函数原理解析:
本来想自己整理,查阅资料无意中发现一篇写的很细的文章,贴在这里(偷懒。。。)
详解NLLLoss和CrossEntropyLoss
2万+

被折叠的 条评论
为什么被折叠?



