Pytorch中交叉熵损失函数分析

最新推荐文章于 2024-05-13 23:20:43 发布

夜半罟霖

最新推荐文章于 2024-05-13 23:20:43 发布

阅读量555

点赞数

分类专栏： pytorch 文章标签： pytorch 深度学习机器学习

本文链接：https://blog.csdn.net/Dr_maker/article/details/125306282

版权

pytorch 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

引言

本文旨在对pytorch中常用于分类问题的损失函数BinaryCrossEntropy(), CrossEntropy()用法进行一个简要的介绍。常见的文章主要是对这些损失函数的原理进行了数学推导，而本文主要介绍了其输入输出的shape和格式要求，作为一个工具存在。

损失函数

本文涉及到的损失函数有BCELoss()、BCEWithLogitsLoss()、NLLLOSS()、CrossEntropyLoss()，前两者是二分类问题常用的损失函数，后两者是多分类问题常用的损失函数。列出格式表如下：

	输入格式	label的dtype	是否为独热向量	网络输出是否需要激活
BCELoss()	(pred:[],label:[],二者相同即可)	torch.float32	否	是
BCEWithLogitsLoss()	(pred:[],label:[],二者相同即可)	torch.float32	否	否
NLLLOSS()	(pred:[N,C],label:[N,])	torch.int64	否	是
CrossEntropyLoss()	(pred:[N,C],label:[N,])或 (pred:[N,C],label:[N,C])	torch.int64/torch.float32,torch.float64	否	否

其中CrossEntropyLoss之所以会有label为[N,C]形状却不并不为onehot向量，这是因为这里的label描述的是一个样本属于多个类别的情况，可以认为是属于每一种类别的可能性，也可以认为是软化的onehot向量。

计算方式

（默认在batch上采用平均）：

BCELoss()

$loss=-\frac{1}{N}\sum_i^{N}[y_i\cdot log(p_i)+ (1-y_i)\cdot log(1-p_i)]$ ，其中 $y_i$ 为实际标签， $p_i$ 为网路预测其属于正样本的输出值（非概率）。

BCEWithLogitsLoss()

$loss=-\frac{1}{N}\sum_i^{N}(1-y_i)\cdot log(1-p_i)$ ，其中 $y_i$ 为实际标签， $p_i$ 为网路预测其属于正样本的概率。

NLL loss

$loss=-\frac{1}{N}\sum_i^{N} \sum_j^CI (y_{i}=c)p_{ic}$ ，其中 $I$ 为指示函数，当第 $i$ 个样本的标签 $y_{i}$ 与当前类别c相同时取1，否则取0； $p_{ic}$ 为网络输出的第 $i$ 个样本属于第 $c$ 类的概率。

CrossEntropyLoss()

$loss=-\frac{1}{N}\sum_i^{N}\sum_j^clog\frac{exp(p_c)}{\sum_j^cexp(p_c)}I (y_{i}=c)$ ，其中 $I$ 为指示函数，当第 $i$ 个样本的标签 $y_{i}$ 与当前类别c相同时取1，否则取0； $p_{ic}$ 为网络输出的第 $i$ 个样本属于第 $c$ 类的输出值（非概率）。