深度学习基础（一） —— softmax 及 logsoftmax

最新推荐文章于 2024-08-02 20:01:48 发布

算法学习者

最新推荐文章于 2024-08-02 20:01:48 发布

阅读量1.5w

点赞数 1

分类专栏： DL

DL 专栏收录该内容

158 篇文章 3 订阅

订阅专栏

softmax：重新定义了多层神经网络的输出层（output layer），注意仅和输出层有关系，和其他层无关。

softmax function，也称为 normalized exponential（指数族分布的观点）；

1. softmax

我们知道在神经网络的前馈（feedforward）的过程中，输出层的输入（input）为：

z L j = \sum k w L j k \cdot a L - 1 k + b L j

在 softmax 的机制中，为获得输出层的输出（也即最终的输出），我们不是将 sigmoid 函数作用于其上，

a L j = σ (z L j)

而是采用所谓的 softmax function：

a L j = e z L j \sum k e z L k

因此：

（1）输出层输出之和为 1

$\sum k a L k = \sum k e z L k \sum k e z L k = 1$

因为输出层的输出之和为1，其中一项增加，其他所有项则会相应减少。
（2）输出层全部输出均为正：
而且 softmax 的机制，也保证了所有的输出均为正值；

终上所述，softmax 层的输出其实为一种概率分布（probability distribution），因此对于一个多 label 的分类任务（比如手写字符识别，0-9）而言， aLj 对应于最终的分类结果为 j 的概率。

2. logsoftmax

将原始数据从 x ⇒ log (x)，无疑会原始数据的值域进行一定的收缩。

进一步地，还可对原始数据进行进一步的预处理，

# 假设 x 是一个向量
def logsoftmax(x):
    m = T.max(x)
    exp_x = T.exp(x-m)
    Z = T.sum(exp_x)
    return x-m-T.log(Z)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

算法学习者

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

PyTorch深度学习实战（2）——PyTorch基础

盼小辉丶的博客

06-04

4万+

PyTorch 是广泛应用于机器学习领域中的强大开源框架，因其易用性和高效性备受青睐。在本节中，将介绍使用 PyTorch 构建神经网络的基础知识。首先了解 PyTorch 的核心数据类型——张量对象。然后，我们将深入研究用于张量对象的各种操作。PyTorch 提供了许多帮助构建神经网络的高级方法及组件，并提供了利用 GPU 更快地训练神经网络的张量对象。

深度学习知识点全面总结

最新发布

生活需要深度

08-02

825

在前面的文章中已经介绍了介绍了一系列激活函数 (Sigmoid、Tanh、ReLU、Leaky ReLU、PReLU、Swish、ELU、SELU、GELU、Softmax、Softplus、Mish、Maxout、HardSigmoid、HardTanh、Hardswish、HardShrink、SoftShrink、TanhShrink、RReLU、CELU、ReLU6、GLU、SwiGLU、GTU、Bilinear、ReGLU、GEGLU)。到此，使用激活函数总结（九）已经介绍完毕了！

（三）PyTorch学习笔记——softmax和log_softmax的区别、CrossEntropyLoss() 与 NLLLoss() 的区别、log似然代价函数

Haward

06-07

13万+

1、softmax 函数 Softmax(x) 也是一个 non-linearity, 但它的特殊之处在于它通常是网络中一次操作. 这是因为它接受了一个实数向量并返回一个概率分布.其定义如下. 定义 x 是一个实数的向量(正数或负数都无所谓, 没有限制). 然后, 第i个 Softmax(x) 的组成是 exp(xi)∑jexp(xj)exp⁡(xi)∑jexp⁡(xj) \frac{\exp...

浅析 Softmax 与 LogSumExp

zenRRan的博客

07-01

675

每天给你送来NLP技术干货！来自：AI算法小喵写在前面在神经网络中，假设网络模型的最后一层是使用softmax去得到一个概率分布，且损失函数使用的是cross entropy loss（交叉熵损失），那我们就会遇到LogSumExp（之后简称LSE）。本文将对LSE的相关知识进行简要介绍。1. 由来假设我们有个值的数据集，我们想要求的值，应该如...

softmax输出向量的计算过程以及log_softmax的优势

吉米_王

05-21

2660

说明：本文部分文本参考知乎博主chuang的一篇文章 softmax 计算过程如图所示： logsoftmax 而logsoftmax无非是在softmax的结果至上进行log操作，即log（yi），输出结果均为负数；值域范围在（0， 1）之间如图所示：（随便画的有点丑）重点： log_softmax能够解决函数overflow和underflow，加快运算速度，提高数据稳定性。如上图所示： softmax会进行指数操作，当上一层的输出，也就是softmax的输入.

PyTorch深度学习实战（1）——神经网络与模型训练过程详解

盼小辉丶的博客

05-28

6万+

在本节中，我们将了解传统机器学习与人工神经网络间的差异，并了解如何在实现前向传播之前连接网络的各个层，以计算与网络当前权重对应的损失值；实现反向传播以优化权重达到最小化损失值的目标。并将实现网络的所有关键组成——前向传播、激活函数、损失函数、链式法则和梯度下降，从零开始构建并训练了一个简单的神经网络。

深度学习——多分类问题(SOFTMAX MNIST)-学习笔记

qq_58152527的博客

04-10

1万+

深度学习——多分类问题在深度学习里有个经典的数据集MNIST-dataset，它是一个手写的数字照片集合，也是一个经典的做多分类的一个集合。这个集合是由0～9 10个数组成的集合，我们需求是分析输入的数字对应真实数字的概率是多少，说明需要十个标签，十个分类。多分类问题逻辑图把原来只有一个输出，加到10个每个输出对应一个数字，这样可以得到每个数字对应的概率值，这里每个输出做的都是sigmoid二分类（即是非1即0），所以只要有一项输出为1时，其他非1的输出...

Unet相关知识及网络解析

weixin_45277117的博客

09-04

281

Unet经典网络，无更改；2015年提出的UNet模型是我们学习语义分割必学的一个优秀模型，它兼具轻量化与高性能，因此通常作为语义分割任务的基线测试模型，至今仍是如此，其优秀程度可见一斑。UNet从本质上来说也属于一种全卷积神经网络模型，它的取名来源于其架构形状：模型整体呈现"U"形。它的出生是为了解决医疗影像语义分割问题的，但之后几年的发展，也证实了它是语义分割任务中的全能选手，或许这就是优秀网络架构的优异之处。

关于softmax和log_softmax区别与联系

qq_41745284的博客

11-22

1217

softmax的缺点： Softmax是指数标准化函数，又称为归一化指数函数，将多个神经元的输出，映射到 (0,1) 范围内，并且归一化保证和为1，从而使得多分类的概率之和也刚好为1。其公式如下：试想最后一层的输出向量有三个单元Z=[z1=3、z2=1、z3=-3], 此时做softmax，exp(z1)=20、exp(z2)=2.7、exp(z3)=0.05, 根据公式得到各个单元的概率：exp(z1)/∑exp(zi)=0.88 、exp(z1)/∑exp(zi)=0.12、exp(z1)/∑ex

深度学习中的 logits 、softmax，TensorFlow中的 tf.nn.softmax_cross_entropy_with_logits 、tf.nn.sparse_soft...对比

wwyy2018的博客

08-26

1万+

一、logits 和 softmax 1、什么是logits？说到Logits，首先要弄明白什么是Odds？在英文里，Odds的本意是指几率、可能性。它和我们常说的概率又有什么区别呢？在统计学里，概率（Probability）描述的是某事件A出现的次数与所有事件出现的次数之比: p(A)=A发生的次数所有事件发生的总次数 ...

Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解

源的博客

06-17

4万+

03.7. softmax回归的简洁实现

weixin_45063703的博客

09-04

664

对每个项求幂（使用exp）；对每一行求和（小批量中每个样本是一行），得到每个样本的规范化常数；将每一行除以其规范化常数，确保结果的和为1。return X_exp / partition # 这里应用了广播机制对于任何随机输入，我们将每个元素变成一个非负数。此外，依据概率原理，每行总和为1。注意，虽然这在数学上看起来是正确的，但我们在代码实现中有点草率。矩阵中的非常大或非常小的元素可能造成数值上溢或下溢，但我们没有采取措施来防止这点。定义了输入如何通过网络映射到输出。

【总结】PyTorch多分类log_softmax、softmax的中文手册

江南蜡笔小新

04-01

4016

【总结】PyTorch多分类log_softmax、softmax的区别与联系 log_softmax、softmax在F和nn中存在，在此主要介绍nn 1.softmax torch.nn.functional.softmax (Python function, in torch.nn.functional) torch.nn.Softmax (Python class, in torch.n...

【MXNet学习】SoftmaxOutput源码

qq_35091353的博客

09-14

321

1、翻译 Computes the gradient of cross entropy loss with respect to softmax output.该函数的作用是用输softmax输出，计算交叉熵损失的梯度 This operator computes the gradient in two steps. 计算梯度的操作分为两步。The cross entropy loss does not actually need to be computed. 实际上没有计算交叉熵损失(只是计算了交叉

深度学习基础：线性回归与Softmax回归解析

理解这些基础知识是深入学习深度学习领域的关键。线性回归和Softmax回归不仅是初步理解机器学习和深度学习的入口，也是构建复杂模型的基石。通过不断的实践和理论学习，可以进一步掌握深度学习的高级概念和技术，如...