图像分类任务为什么用CEE不用MSE?
我们想衡量模型输出a和label y的逼近程度,其实这两个Loss都可以。但是为什么Logistic Regression采用的是交叉熵作为损失函数呢?看下这两个Loss function对w的导数,也就是SGD梯度下降时,w的梯度。
sigmoid导函数的取值范围?
F.cross_entropy()
F.nll_entropy()
nn.MSELoss()
MSELoss损失函数中文名字就是:均方损失函数,公式如下所示:
这里 loss, x, y 的维度是一样的,可以是向量或者矩阵,i 是下标。
很多的 loss 函数都有 size_average 和 reduce 两个布尔类型的参数。因为一般损失函数都是直接计算 batch 的数据,因此返回的 loss 结果都是维度为 (batch_size, ) 的向量。
一般的使用格式如下所示:
loss_fn = torch.nn.MSELoss(reduce=True, size_average=True)
这里注意一下两个入参:
A reduce = False,返回向量形式的 loss
B reduce = True, 返回标量形式的loss
C size_average = True,返回 loss.mean();
D 如果 size_average = False,返回 loss.sum()
默认情况下:两个参数都为True.