pytorch损失函数之nn.BCELoss()（为什么用交叉熵作为损失函数）

最新推荐文章于 2024-05-13 23:20:43 发布

geter_CS

最新推荐文章于 2024-05-13 23:20:43 发布

阅读量6.7w

点赞数 26

分类专栏： pytorch 深度学习机器学习文章标签： pytorch nn.BCELoss() 交叉熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/geter_CS/article/details/84747670

版权

深度学习同时被 3 个专栏收录

23 篇文章 4 订阅

订阅专栏

21 篇文章 3 订阅

订阅专栏

14 篇文章 7 订阅

订阅专栏

关于熵、KL散度、交叉熵的讲解在这一篇文章中

一个二项分布，随机变量只有两种可能值，所以是一个二分类。二分类的交叉熵形式： $-ylog\hat{y}-(1-y)log(1-\hat{y})(1)$ 其中 $\hat{y}$ 是输出值在0-1之间。对于批量样本 ${(x_1,y_1),(x_2,y_2)...}$ 则可以对交叉熵求和或者求均值： $\sum_{i}-y_ilog\hat{y_i}-(1-y_i)log(1-\hat{y_i})(2)$ ，注意公式（1）是两个交叉熵和的形式，因为随即变量有两个可能的值，一个概率为 $\hat{y}$ ，一个概率为 $1-\hat{y}$ 。（这里我们将标签值y视作先验分布， $\hat{y}$ 为模型分布）

pytorch中 class torch.nn.BCELoss(weight=None, size_average=None, reduce=None, reduction=‘elementwise_mean’) 表示求一个二分类的交叉熵。它的loss如下：

$l(x,y)=L=\{l_1,l_2,...,l_n\},其中l_n=-w_n[y_nlog\hat{y_n}+(1-y_n)log(1-\hat{y_n})]$ ，这里n表示批量大小。 $w_n$ 表示权重。

当参数reduce设置为 True，且参数size_average设置为True时，表示对交叉熵求均值，当size_average设置为Flase时，表示对交叉熵求和。参数weight设置的是 $w_n$ ，其是一个tensor且size与批量数一样(不设置时可能都为1)。目标值 $y$ 的范围是0-1之间。输入输出的维度都是 $（ N ， * ）$ ，N是批量数，*表示目标值维度。

为什么是用交叉熵作为损失函数？

在深度学习中我们常用的损失函数是二次函数 $L=\frac{(y-\hat{y})^2}{2} (3)$ ,若激活函数使用的是sigmoid函数，则 $\hat{y}=\sigma(z)$ ，其中 $z = w x + b$ 。采用链式法则求导，则有：

$\frac{\partial L}{\partial w}=(\hat{y}-y){\sigma(z)}'x$ $\frac{\partial L}{\partial b}=(\hat{y}-y){\sigma(z)}'$

可以看出梯度都与sigmoid函数的梯度有关，如下图所示，sigmoid函数在两

在这里插入图片描述

端的梯度均接近0，这导致反向传播的梯度也很小，这就这就不利于网络训练，这就是梯度消失问题。

再来看看以交叉熵作为损失函数.对 $\frac{1}{n}\sum_{i}-y_ilog\hat{y_i}-(1-y_i)log(1-\hat{y_i})(2)$ 求导，可得： $\frac{\partial L}{\partial w}=-\frac{1}{n}\sum_i(\frac{y}{\sigma(z)}-\frac{1-y}{1-\sigma(z)})\frac{\partial \sigma}{\partial w}=-\frac{1}{n}\sum_i(\frac{y}{\sigma(z)}-\frac{1-y}{1-\sigma(z)}) {\sigma}'x$ 由于 $\sigma(z)=1/(1+e^{-z})$ 所以最终得到： $\frac{\partial L}{\partial w}=\frac{1}{n}\sum_i x(\sigma(z)-y)$ 而对偏置的导数也等于 $\frac{\partial L}{\partial b}=\frac{1}{n}\sum_i (\sigma(z)-y)$ 可以看见使用交叉熵作为损失函数后，反向传播的梯度不在于sigmoid函数的导数有关了。这就从一定程度上避免了梯度消失。

若是遇到多分类问题怎么使用交交叉熵呢？

比如我们有3个类别，那么我们通过softmax得到 $\hat{y}=[0.2,0.5,0.3]$ 的到的一个一个样本的分类结果，这个结果的通俗解释就是：为第一类的概率为0.2，为第二类的概率为0.5,为第三类的结果过0.3。

假设这个样本真实类别为第二类，那么我们希望模型输出的结果过应该是 $y = [0, 1, 0]$ ，这个就是标签值。那么损失函数可以使用交叉熵：

$L=-\sum_k^3y_klog(\hat{y})$ ，可以看见实际上这个求和只有一项。也就是 $L = - l o g (0.5)$ 。
pytorch中提供了多分类使用的损失函数nn.CrossEntropyLoss()使用的原理，与这里类似。

Neural Network and Deep Learning ，Michael Nielsen（中文）
pytorch官方文档
http://www.cnblogs.com/pinard/p/6437495.html

关注

26
点赞
踩
109

收藏

觉得还不错? 一键收藏
11
评论
pytorch损失函数之nn.BCELoss()（为什么用交叉熵作为损失函数）

交叉熵
复制链接

扫一扫

专栏目录

geter_CS CSDN认证博客专家 CSDN认证企业博客

码龄7年

115: 原创

1万+: 周排名

90万+: 总排名

70万+: 访问

: 等级

4681: 积分

5618: 粉丝

635: 获赞

128: 评论

2485: 收藏

私信

关注

热门文章

分类专栏

验证 27篇
设计 15篇
低功耗验证设计 7篇
C 3篇
risc-v 2篇
脚本
ahb 1篇
usb 4篇
PCI/PCIE 1篇
pytorch 14篇
matlab
python 17篇
深度学习 23篇
nlp 4篇
机器学习 21篇
强化学习 10篇
C++ 11篇
爬虫 4篇
其他 9篇
数据结构 5篇
java 5篇

最新评论

vcs常用断言debug选项，以及断言的注意点
东北二亮子: 您好。我想问个问题，为什么有的时候断言成功向上的绿色箭头没有显示
vcs常用断言debug选项，以及断言的注意点
东北二亮子: 大师NB
熵（熵，条件熵）与最大熵模型
ajopdghq: 李航统计学习方法例6-2使用的不是条件熵，请问最大熵模型可以简化使用熵吗？
汉明码奇偶校验矩阵理解
saki牧师妹: 按所呈现出来的表格来看就是p位置二进制码不变，因为d1的位置变成5了所以编码是101，但是到后面第8位1000的编码被p4占用了，所以往后顺延了一位，不知道我的理解是否正确
(AHB VIP为例)Verdi UVM/interactive debug mode简单使用
岁月当人初: 佬，可以show一下你的filelist文件吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。