李沐-数值稳定性+模型初始化和激活函数

最新推荐文章于 2024-07-29 17:59:47 发布

宁のbobo

最新推荐文章于 2024-07-29 17:59:47 发布

阅读量204

点赞数

文章标签： servlet java 开发语言深度学习大数据

本文链接：https://blog.csdn.net/o_011/article/details/126594104

版权

1.梯度爆炸的问题

（1）值超出值域：对于16位浮点数尤为严重

（2）对学习率敏感：如果学习率太大->大参数值->更大的梯度

如果学习率太小->训练无进展

我们可能需要在训练过程不断调整学习率

总结：当数值过大或者过小时会导致数值问题

常发生在深度模型中，因为其会对n个数累乘

2.让训练更加稳定

目标：（1）让梯度值在合理的范围内

（2）将乘法变加法：ResNet，LSTM

（3）归一化：梯度归一化、梯度裁剪

（4）合理的权值初始和激活函数

3.让每层的方差是一个常数

（1）将每层的输出和梯度都看作随机变量

（2）让他们的均值和方差都保持一致

3权值初始化：

（1）在合理值区间里随机初始参数

（2)训练开始的时候更容易有数值不稳定

远离最优解的地方损失函数表面可能很复杂

最优解附近表面会比较平

（3）使用N（0，0.01）来初始可能对小网络没问题，但不能保证深度神经网络

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

宁のbobo

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

动手学深度学习V2.0(Pytorch)——10.感知机（激活函数）

Castlehe的博客

10-09

357

https://www.bilibili.com/video/BV1hh411U7gn 1. 感知机本部分内容大部分来自perceptron的Wikipedia：https://en.wikipedia.org/wiki/Perceptron 但是最重要的地方是：整理和讲解清楚!!! 感谢李沐老师！早年的感知机，Wikipedia上的图，一个权重就是用一根电线。。。。所以是个占地体积非常庞大的模型。感知机是人工智能最早的模型对于给定输入x\textbf xx，x\textbf xx是一个向量，

深度学习笔记——数值稳定性、模型初始化与激活函数

静静的学习就好

05-12

656

本节将对数值稳定性、模型初始化以及激活函数进行系统介绍。

参与评论您还未登录，请先登录后发表或查看评论

动手学深度学之数值稳定性&模型初始化&激活函数

Trony的博客

08-11

334

数值稳定性 神经网络的梯度这里的t是第t层，这里hth^tht是第t层的输出，y表示表示第1层到第d层的加上一个损失函数的一个目标函数。如果这里要计算损失l\mathcal{l}l关于第t层的参数WtW_tWt的梯度，就是用链式法则，一直往下求，求到第t层，这里我们的h是一个向量，向量关于向量的导数是一个矩阵，所以这里就可以看作d-t次的矩阵的乘法，这样的一个矩阵的乘法带来了两个问题，一个是梯度爆炸，一个是梯度消失数值稳定性的常见两个问题例子假如如下MLP(多层感知机)(这里为了简单省

动手学深度学习V2每日笔记（模型初始化和激活函数）

最新发布

xiaostudennt的博客

07-29

695

本文主要参考沐神的视频教程 https://www.bilibili.com/video/BV1u64y1i75ap=2&vd_source=c7bfc6ce0ea0cbe43aa288ba2713e56d文档教程 https://zh-v2.d2l.ai/本文的主要内容对沐神提供的代码中个人不太理解的内容进行笔记记录，内容不会特别严谨仅供参考。

【笔记】动手学深度学习 - 数值稳定性 + 模型初始化和激活函数

echo_gou的博客

08-31

309

数值稳定性 其中t为层。为t-1层的输出如果层数比较多，就有可能出现梯度爆炸或者梯度消失。生物神经元似乎是用 Sigmoid（S 型）激活函数活动的，因此研究人员在很长一段时间内坚持 Sigmoid 函数。但事实证明，Relu 激活函数通常在 ANN 工作得更好。这是生物研究误导的例子之一。当神经网络有很多层，每个隐藏层都使用Sigmoid函数作为激励函数时，很容易引起梯度消失的问题因为sigmoid有一个缺点：当x较大或较小时，导数接近0；并且Sigmoid函数导...

数值稳定性 + 模型初始化和激活函数

taoist1997的博客

12-25

415

14 数值稳定性 + 模型初始化和激活函数【动手学深度学习v2】

深度学习笔记 —— 数值稳定性 + 模型初始化和激活函数

LightInDarkness的博客

03-26

706

t：层：第t-1层隐藏层的输出 y：要优化的目标函数这里的h都是一些向量，向量关于向量的导数是一个矩阵，这里做了太多的矩阵乘法，就容易导致梯度爆炸和梯度消失的问题。

跟李沐学AI-动手学深度学习-数值稳定性+模型初始化和激活函数

哇哈哈哈的博客

09-11

567

数值稳定性 神经网络的梯度考虑如下有d层的神经网络计算损失l关于参数Wt的梯度数值稳定性的常见两个问题梯度消失和梯度爆炸例子： MLP 加入如下MLP（为了简单省略了偏移）梯度爆炸使用ReLU作为激活函数。梯度爆炸的问题值超出值域(infinity) 对于16位浮点数尤为严重（数值区间6e-5 - 6e4）。对学习率敏感如果学习率太大 -> 大参数值 -> 更大的梯度。如果学习率太...

深度学习-学习笔记（模型初始化）

weixin_37815696的博客

04-20

571

最近看李沐老师的动手学深度学习，有很多收获，因此将老师讲课内容稍作总结，以便以后翻阅学习权重初始化 由数值稳定性可知，为了使模型训练更加稳定，我们需要使梯度在一个合理的范围，以缓解梯度消失和梯度爆炸，其中一个常用的方法就是选择合适的权重初始化。使用N(0,0.01)正态分布来初始可能对小网络没问题，但不能保证深度神经网络。使每一层的均值和方差都保持一致如果使每一层的数值保持在一个相同的区间内，那么不管神经网络有多深，它的输出都是在一个特定的区间内，这是一个比较好的方法。（每一层的数值包括每.

深度学习-学习笔记（数值稳定性）

weixin_37815696的博客

04-20

972

数值稳定性 数值稳定性是神经网络模型一个非常重要的内容，模型不稳定一般与梯度消失和梯度爆炸有关。为了保持数值的稳定，我们需要选择合适的参数初始化方案和合理的非线性激活函数。梯度的表达 ...

从基础到高级：AI大模型开发的技术栈

程序员光剑

01-17

1311

人工智能（AI）技术在近年来取得了突飞猛进的发展，其中大模型（Large Language Models，LLMs）的出现更是掀起了新一轮的技术革命。从OpenAI的GPT系列到Google的BERT，再到更近期的Claude和PaLM，这些大模型展现出了惊人的语言理解和生成能力，正在重塑我们与技术交互的方式。然而，开发如此复杂的AI系统并非易事，它需要一整套完善的技术栈支持。本文旨在全面剖析AI大模型开发的技术栈，从基础理论到实际应用，为读者提供一个清晰而深入的认识。

数值稳定性、模型初始化和激活函数

qq_58317297的博客

06-27

472

Var(x)=E(x^2)-E(x)^2，这里E(x)=0（把E^2变成了Var[]）pytorch的normal函数里面传参是标准差，数学上的正态分布写的是方差，这里按normal函数来的。b、对学习率敏感，如果学习率太大->大参数值->更大的梯度，如果学习率太小>训练无进展，我们可能需要在训练过程不断调整学习率。h^(t-1)是t-1层的输出，也就是t层的输入，y是需要优化的目标函数，向量关于向量的倒数是一个矩阵。3、将每一层的输出和梯度都看成随机变量，使每一层权重为均值为0，方差为常数、

深度学习——数值稳定性+模型初始化+激活函数（笔记）

jbkjhji的博客

11-22

449

②对学习率敏感：学习率太大，大的参数，梯度更大了。学习率太小，小的参数乘梯度，优化不起作用了。所以 d-t很大代表层数多，W大于1，值很大，梯度爆炸。一.数值稳定性：随着网络的层数的增加，数值可能变得不稳定。①目标：让梯度值在合理的范围内[1e-6,1e3]y是损失函数也是目标函数，从第一层一直到d层。二，让训练更加稳定【梯度不能太小和太大】合理的权重初始和激活函数（对梯度的影响）输入的值大一些，梯度就接近于0.②计算损失函数l关于参数的梯度，③归一化：梯度归一化，梯度裁剪。第t层隐藏层的计算，省略偏移。

【动手学深度学习PyTorch版】8 数值稳定性、模型初始化、激活函数

水w的博客

10-24

646

数值稳定性、模型初始化、激活函数

李沐《动手学深度学习》课程笔记：14 数值稳定性 + 模型初始化和激活函数

weixin_44850744的博客

03-03

1180

目录 14 数值稳定性 + 模型初始化和激活函数 1.数值稳定性 2.模型初始化和激活函数 14 数值稳定性 + 模型初始化和激活函数 1.数值稳定性 考虑一个具有L层、输入x和输出o的深层网络。每一层l由变换fl定义，该变换的参数为权重W(l)，其隐藏变量是h(l)（令h(0)=x）。我们的网络可以表示为： (4.8.1)h(l)=fl(h(l−1))因此o=...

动手学深度学习（十六）——数值稳定性和模型初始化(公式说明)

Liu Feng's Blog

07-29

1747

文章目录一、数值稳定性——梯度消失和梯度爆炸二、多层感知机器（MLP）中说明梯度爆炸和梯度消失2.1 梯度爆炸梯度爆炸的问题2.2 梯度消失梯度消失的问题2.3总结如何让训练更加稳定？三、模型初始化和激活函数3.1 权重初始化3.2 让每一层的方差都是一个常数Xavier初始化：以多层感知机为例假设线性的激活函数3.3 总结一、数值稳定性——梯度消失和梯度爆炸考虑一个具有LLL层、输入x\mathbf{x}x和输出o\mathbf{o}o的深层网络。每一层lll由变换flf_lfl定义，该变换的参数为

李沐动手学深度学习第四章-4.8. 数值稳定性和模型初始化

nousefully的博客

09-09

569

无

学习笔记-李沐动手学深度学习（五）（14-15，数值稳定性梯度爆炸和消失、调学习率、模型初始化和激活函数、Kaggle房价预测）

ljmiiianng的博客

01-27

1257

【目标】让梯度值在合理范围内【目标的实现方式】（本节讲方式三，一、二后面讲）（1）让乘法变加法：CNN中用的多的是 ResNetRNN中用的多的是LSTM（带时序的）（2）归一化（不管原梯度多大，都将其拉到均值为0方差为1的范围内）或设定阈值（如梯度大于5，则置为5，小于-5，则置为-5）（3）合理的权重初始化和激活函数（即合理选择w和sigma）

李沐深度学习损失函数

10-20

李沐是深度学习领域的知名专家，他在深度学习中使用了多种损失函数。其中，L2 Loss和L1 Loss是两种常见的损失函数。 1. L2 Loss，也称为均方误差（MSE），是指预测值与真实值之间的平方差的平均值。在深度学习中，L2 Loss通常用于回归问题，例如预测房价等。 2. L1 Loss，也称为绝对误差（MAE），是指预测值与真实值之间的绝对值的平均值。与L2 Loss相比，L1 Loss更加鲁棒，对于异常值的影响更小。在深度学习中，L1 Loss通常用于回归问题，例如预测医疗费用等。此外，李沐还使用了其他损失函数，例如交叉熵损失函数等。不同的损失函数适用于不同的问题，选择合适的损失函数可以提高模型的性能。