李沐-数值稳定性+模型初始化和激活函数

最新推荐文章于 2024-07-02 00:50:11 发布

宁のbobo

最新推荐文章于 2024-07-02 00:50:11 发布

阅读量197

点赞数

文章标签： servlet java 开发语言深度学习大数据

本文链接：https://blog.csdn.net/O_011/article/details/126594104

版权

1.梯度爆炸的问题

（1）值超出值域：对于16位浮点数尤为严重

（2）对学习率敏感：如果学习率太大->大参数值->更大的梯度

如果学习率太小->训练无进展

我们可能需要在训练过程不断调整学习率

总结：当数值过大或者过小时会导致数值问题

常发生在深度模型中，因为其会对n个数累乘

2.让训练更加稳定

目标：（1）让梯度值在合理的范围内

（2）将乘法变加法：ResNet，LSTM

（3）归一化：梯度归一化、梯度裁剪

（4）合理的权值初始和激活函数

3.让每层的方差是一个常数

（1）将每层的输出和梯度都看作随机变量

（2）让他们的均值和方差都保持一致

3权值初始化：

（1）在合理值区间里随机初始参数

（2)训练开始的时候更容易有数值不稳定

远离最优解的地方损失函数表面可能很复杂

最优解附近表面会比较平

（3）使用N（0，0.01）来初始可能对小网络没问题，但不能保证深度神经网络

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

宁のbobo

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李沐-数值稳定性+模型初始化和激活函数

李沐-数值稳定性+模型初始化和激活函数
复制链接

扫一扫

动手学深度学之数值稳定性&模型初始化&激活函数

Trony的博客

08-11

302

数值稳定性 神经网络的梯度这里的t是第t层，这里hth^tht是第t层的输出，y表示表示第1层到第d层的加上一个损失函数的一个目标函数。如果这里要计算损失l\mathcal{l}l关于第t层的参数WtW_tWt的梯度，就是用链式法则，一直往下求，求到第t层，这里我们的h是一个向量，向量关于向量的导数是一个矩阵，所以这里就可以看作d-t次的矩阵的乘法，这样的一个矩阵的乘法带来了两个问题，一个是梯度爆炸，一个是梯度消失数值稳定性的常见两个问题例子假如如下MLP(多层感知机)(这里为了简单省

【笔记】动手学深度学习 - 数值稳定性 + 模型初始化和激活函数

echo_gou的博客

08-31

285

数值稳定性 其中t为层。为t-1层的输出如果层数比较多，就有可能出现梯度爆炸或者梯度消失。生物神经元似乎是用 Sigmoid（S 型）激活函数活动的，因此研究人员在很长一段时间内坚持 Sigmoid 函数。但事实证明，Relu 激活函数通常在 ANN 工作得更好。这是生物研究误导的例子之一。当神经网络有很多层，每个隐藏层都使用Sigmoid函数作为激励函数时，很容易引起梯度消失的问题因为sigmoid有一个缺点：当x较大或较小时，导数接近0；并且Sigmoid函数导...

参与评论您还未登录，请先登录后发表或查看评论

数值稳定性 + 模型初始化和激活函数

taoist1997的博客

12-25

406

14 数值稳定性 + 模型初始化和激活函数【动手学深度学习v2】

深度学习笔记 —— 数值稳定性 + 模型初始化和激活函数

LightInDarkness的博客

03-26

682

t：层：第t-1层隐藏层的输出 y：要优化的目标函数这里的h都是一些向量，向量关于向量的导数是一个矩阵，这里做了太多的矩阵乘法，就容易导致梯度爆炸和梯度消失的问题。

深度学习笔记——数值稳定性、模型初始化与激活函数

静静的学习就好

05-12

635

本节将对数值稳定性、模型初始化以及激活函数进行系统介绍。

01-05

04-13

08-03

2010年代，深度学习的研究和应用取得了突破性的进展。成功案例 ------------ 深度学习的应用场景非常广泛，包括图像识别、语音识别、自然语言处理等。例如，AlphaGo的出现，标志着人工智能可以超越人类的能力。...

李沐深度学习-pytorch.zip

08-30

可定制化：ChatGPT可以基于不同的应用场景和需求进行定制，通过人工干预和调参来提高模型的准确性和效率，从而实现更好的用户体验。智能化：ChatGPT可以通过学习用户的行为和偏好来优化对话，从而实现更加智能化的...

深度学习——数值稳定性+模型初始化+激活函数（笔记）

jbkjhji的博客

11-22

433

②对学习率敏感：学习率太大，大的参数，梯度更大了。学习率太小，小的参数乘梯度，优化不起作用了。所以 d-t很大代表层数多，W大于1，值很大，梯度爆炸。一.数值稳定性：随着网络的层数的增加，数值可能变得不稳定。①目标：让梯度值在合理的范围内[1e-6,1e3]y是损失函数也是目标函数，从第一层一直到d层。二，让训练更加稳定【梯度不能太小和太大】合理的权重初始和激活函数（对梯度的影响）输入的值大一些，梯度就接近于0.②计算损失函数l关于参数的梯度，③归一化：梯度归一化，梯度裁剪。第t层隐藏层的计算，省略偏移。

李沐《动手学深度学习》课程笔记：14 数值稳定性 + 模型初始化和激活函数

weixin_44850744的博客

03-03

1105

目录 14 数值稳定性 + 模型初始化和激活函数 1.数值稳定性 2.模型初始化和激活函数 14 数值稳定性 + 模型初始化和激活函数 1.数值稳定性 考虑一个具有L层、输入x和输出o的深层网络。每一层l由变换fl定义，该变换的参数为权重W(l)，其隐藏变量是h(l)（令h(0)=x）。我们的网络可以表示为： (4.8.1)h(l)=fl(h(l−1))因此o=...

动手学深度学习（十六）——数值稳定性和模型初始化(公式说明)

Liu Feng's Blog

07-29

1697

文章目录一、数值稳定性——梯度消失和梯度爆炸二、多层感知机器（MLP）中说明梯度爆炸和梯度消失2.1 梯度爆炸梯度爆炸的问题2.2 梯度消失梯度消失的问题2.3总结如何让训练更加稳定？三、模型初始化和激活函数3.1 权重初始化3.2 让每一层的方差都是一个常数Xavier初始化：以多层感知机为例假设线性的激活函数3.3 总结一、数值稳定性——梯度消失和梯度爆炸考虑一个具有LLL层、输入x\mathbf{x}x和输出o\mathbf{o}o的深层网络。每一层lll由变换flf_lfl定义，该变换的参数为

李沐动手学深度学习第四章-4.8. 数值稳定性和模型初始化

nousefully的博客

09-09

542

无

李沐动手学深度学习V2-模型微调和代码实现

flyingluohaipeng的博客

05-12

1914

微调由于数据集有限，收集和标记数据可能需要大量的时间和金钱，因此需要应用迁移学习（transfer learning）将从源数据集学到的知识迁移到目标数据集。例如，尽管ImageNet数据集中的大多数图像与识别图像无关，但在此数据集上训练的模型可能会提取更通用的图像特征，这有助于识别边缘、纹理、形状和对象组合，这些类似的特征也可能有效地识别当前图像。 1. 微调步骤在源数据集（例如ImageNet数据集）上预训练神经网络模型，即源模型。创建一个新的神经网络模型，即目标模型。这将复制源模型上的所有模

sigmoid函数_温故知新——激活函数及其各自的优缺点

weixin_39945445的博客

11-22

4873

1.什么是激活函数？所谓激活函数（Activation Function），就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。激活函数对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。如图，在神经元中，输入（inputs ）通过加权，求和后，还被作用在一个函数上，这个函数就是激活函数。2.为什么要用激活函数？如果...

深度学习笔记007：让训练更加稳定:模型初始化+激活函数(RELU)+梯度裁剪

ResumeProject的博客

07-09

531

让每一层的输出和梯度均值为零方差固定的随机biaanling让每一层的输出和梯度均值为零方差固定的随机biaanling让每一层的输出和梯度均值为零方差固定的随机biaanling iid :独立通分布即若输入的方差和输出的方差一样的话：nt−1∗γt=1即若输入的方差和输出的方差一样的话：n_{t-1} * γ_t=1即若输入的方差和输出的方差一样的话：nt−1∗γt=1 反向类似：其中nt−1(第t层输入的维度)和nt(第t层输出的维度)是我们不能控制的其中n_{t-1}(第t层..

深度学习记录（2） - 激活函数与参数初始化

行仔ovo的博客

03-06

635

文章目录0. 神经元的工作方式1. 激活函数1.1 sigmoid1.2 tanh1.3 relu1.4 leakyrelu1.5 softmax1.6 其他激活函数1.7 如何选择激活函数隐藏层输出层2. 参数初始化2.1 随机初始化2.2 标准初始化2.3 Xavier（Glorot）初始化2.4 He初始化3. 神经网络的构建方式3.1 Sequential构建方式3.2 利用function API构建3.3 通过Model的子类构建4. 损失函数4.1 分类任务中的损失函数多分类任务二分类任务4.

10.javaSE基础_JDBC编译程序(Driver+Statement+Connection+mysql数据库连接)

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交