caffe学习笔记3.3--Loss

最新推荐文章于 2020-08-25 16:24:56 发布

原创最新推荐文章于 2020-08-25 16:24:56 发布 · 5.4k 阅读

1 ·

CC 4.0 BY-SA版权

caffe学习专栏收录该内容

26 篇文章

订阅专栏

本文介绍了Caffe中损失函数的工作原理及其配置方式。重点讲解了SoftmaxWithLoss函数的使用，并探讨了如何通过loss_weight来调整不同损失的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

与大多数的机器学习算法一样，caffe的学习也是由loss function驱动的（或者叫error,cost,objective function）。损失函数的目标是，将参数（就是网络中的权值和偏置）映射到一个能够度量参数“不好程度”的标量中，因此，其目标就是让这个标量最小化（其实就是调整参数，是的损失函数的值最小）。

在caffe中，通过前向传播计算损失，每一层由一系列的输入（bottom）blobs产生一系列的输出(top),某些层的输出可以用于损失函数,一类典型的多分类任务的损失函数是SoftmaxWithLoss函数,其定义如下:

layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "pred"
  bottom: "label"
  top: "loss"
}

在SoftmaxWithLoss函数中,top blob是一个标量值,它是整个mni-batch损失的平均值(由预测标签和真实标签计算得到)

Loss weights

如果一个网络由多个层可以产生损失(比如,一个网络使用SoftmaxWithLoss对输入数据分类,同时也使用EuclideanLoss层重构网络), loss weights可以用来给定两个损失的重要性.

按惯例 , caffe中后缀为loss的层均用于损失函数，其他层单纯的用于中间计算。但是，可以通过添加一个loss_weight: <float>字段将任意层定义为一个loss。对于后缀为loss的层，该层的第一个top blob的loss_weight默认为1，其余层默认为0。因此上面的SoftmaxWithLoss层的定义等价于：

layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "pred"
  bottom: "label"
  top: "loss"
  loss_weight: 1
}

但是，对于能反向传播的层，可以给定一个非0的loss_weight,例如，如果需要，正则化网络中某些层的中间值。对于有关联损失的非孤立的输出，其损失可以简单通过所有blob的求和计算的出

caffe中整个网络的损失可以通过对整个权值损失求和得到，其伪代码如下：

loss := 0
for layer in layers:
  for top, loss_weight in layer.tops, layer.loss_weights:
    loss += loss_weight * sum(top)

参考资料：

http://caffe.berkeleyvision.org/tutorial/loss.html