交叉熵nn.CrossEntropyLoss()和nn.BCELoss()

追影子的蛇

已于 2022-10-08 09:19:57 修改

阅读量1k

点赞数

分类专栏：数学深度学习文章标签： pytorch 深度学习人工智能

于 2022-10-05 20:27:41 首次发布

本文链接：https://blog.csdn.net/qq_45821834/article/details/127176418

版权

数学同时被 2 个专栏收录

6 篇文章 1 订阅

订阅专栏

深度学习

4 篇文章 0 订阅

订阅专栏

交叉熵

用于判定实际的输出（概率）和期望的输出（概率）的接近程度（距离）。

交叉熵的值越小，两个概率分布就越接近。

计算公式

假设概率分布p为期望输出，概率分布q为实际输出，H(p, q)为交叉熵，则：

$q)=-\Sigma_x (p(x)\operatorname{log}(q(x))+(1-p(x))\operatorname{log}(1-q(x)))$

torch.nn.CrossEntropyLoss()

torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=- 100, reduce=None, reduction='mean', label_smoothing=0.0)

计算公式

在pytorch中，使用了交叉熵的一半进行计算[不影响结果大小的比较]： $-\Sigma_x p(x)\operatorname{log}q(x)$
$loss(\hat{y},t)=-\frac{\Sigma_i w_i (y_i\operatorname{log}(\hat{y}_i))}{n}$

其中 $\hat{y}$ 是网络的输出向量，t是其对应的真实标签(int)，n为batch_num

交叉熵损失函数专门用于处理one-hot型 (prediction) y_hat值和对应的int型 (label) 目标值t的多分类问题。

意思是，一个设计良好的模型经过训练后，理想状态下，最终结果应为y_hat[i==t]=1,y_hat[i!=t]=0

从数学的角度理解交叉熵损失函数

对于分类问题来说：

one-hot型prediction: $\hat{y}$

int型label: $t$ ，转换为one-hot型label: $y$ ，则有 $y_t=1$ ，向量y的其余元素为0

从目前预测出的情况中获得期望的label输出的可能性是： $\Pi_i\hat{y}_i^{y_i}$

我们希望这个可能性越大越好
为了计算方便（将连乘转换为累加）且保证函数的单调性，我们取个log

我们求的是： $\arg \max{\Sigma_i y_i \operatorname{log}\hat{y}_i}=\arg \min{-\Sigma_i y_i \operatorname{log}\hat{y}_i}$

又因为由int型label转化成的one-hot型向量只有一个元素值为1，其余元素值都为0

所以上式可化简为： $\arg \min{-\operatorname{log}\hat{y}_t}$

实现原理

这个损失函数其实是结合了nn.LogSoftmax()和nn.NLLLoss()两个函数

Softmax是让数值之和为1，符合概率分布的特性

`nn.NLLLoss()(input, target)`

# 在分类问题上，shape如下：
input: (batch_num, classes_num)
target: (batches_num)

# 有时我们想对图片做nn.CrossEntropyLoss()，shape如下：
# 如果这是一张2D图片，shape为(d1, d2)
# 比如说，我们去学一个图片pixel的二分类问题（该pixel是否属于Edge）
input: (batch_num, class_num, d1, d2)
target: (batches_num, d1, d2)

将int型target转化为one-hot编码y
$-\Sigma_i y_i\times \text{input}_i$

例子

one-hot型prediction: predition=[0.1, 0.1, 0.8]

int型label: 2 先转化为one-hot类型 => label=[0, 0, 1]

在这里插入图片描述

$\text{Loss}=-(0*\operatorname{log}0.1+0*\operatorname{log}0.1+1*\operatorname{log}0.8)=-1*\operatorname{log}0.8$

# # 用代码细写出这个等价形式
import torch.nn as nn

input = torch.rand(3, 3) # predition
target = torch.tensor([0, 1, 2]) # shape=(3) # label

# 直接用nn.CrossEntropyLoss函数
criterion_entropy = nn.CrossEntropyLoss()
loss = criterion_entropy(input, target)

# 拆解成分步计算的形式
input = nn.LogSoftmax(dim=1)(input)
loss = nn.NLLLoss()(input, target)

torch.nn.BCELoss

torch.nn.BCELoss(weight=None, size_average=None, reduce=None, reduction='mean')

计算公式

在pytorch中，使用了交叉熵进行计算： $-\Sigma_x (p(x)\operatorname{log}(q(x))+(1-p(x))\operatorname{log}(1-q(x)))$
$loss(\hat{y},t)=-\frac{\Sigma_i w_i [y_i\operatorname{log}(\hat{y}_i)+(1-y_i)\operatorname{log}(1-\hat{y}_i)]}{n}$

其中 $\hat{y}$ 是网络的输出向量，t是其对应的真实标签(int)，n=batch_num

追影子的蛇

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
交叉熵nn.CrossEntropyLoss()和nn.BCELoss()

简要讲解交叉熵损失的数学基础，并介绍pytorch中torch.nn.CrossEntropyLoss()函数和torch.nn.BCELoss()函数的具体实现
复制链接

扫一扫