动手学PyTorch（李沐）8 ---- 数值稳定

qq_46381729

已于 2023-08-25 12:03:33 修改

阅读量59

点赞数

分类专栏：深度学习文章标签： pytorch 人工智能 python 深度学习数据挖掘机器学习

于 2023-08-10 18:49:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46381729/article/details/132216124

版权

深度学习专栏收录该内容

24 篇文章 4 订阅

订阅专栏

数值稳定型

当神经网络很深的实现，数值非常容易不稳定。

t 表示层，h^t 表示第 t 隐藏层的输出。

h^t-1 经过 f_t 得到 h^t隐藏层的输出。
f_t包含了线性计算和激活函数两步。

$y=\ell \circ f_d \circ \ldots \circ f_1(\mathbf{x})$

这里的y不是预测，y包含了损失函数
向量关于向量的导数是一个矩阵，所以梯度是d - t次的矩阵乘法

如果说梯度是大于1的值，且神经网络足够深，就会导致梯度计算出来的结果过大，超出计算范围。
如果说梯度是介于0 - 1之间的数，当层数足够大是时候，梯度计算的结果过小，近于0。

梯度爆炸与消失

如果梯度过小，那么不论学习率多大，对结果都没有影响。

梯度的反向传播是从顶层开始，一开始是正常的，梯度是乘法，越往深层，梯度越来越小，底部拿到是数就很小，如果底部的层很小，那么不管怎么做学习率，效果提升都是有限的。顶部的层训练很好，但底部的层没效果，本质上与浅层神经网络没有区别。

数值稳定

梯度归一化：如把梯度变为均值为0，方差为1的数。就是不管梯度多大，都拉回来变小。
梯度裁剪：如果梯度超出某个阈值，就将其设定为当前阈值，将梯度强行限制在某个范围内。

如何合理初始化权重和使用激活函数

h_i ^t表示第t层第i个元素是输出。E表示期望，Var表示方差。

在怎样的条件下能够使得正反向的期望为0，正向传播方差为a，反向传播方差为b？

QA：

nan的产生一般是除0，inf的产生一般是过大。解决方法通常是调小学习率和合理初始化权重，选择激活函数。
ReLU的作用是破坏线性联系。
sigmoid可引起梯度消失，但梯度消失不一定是因为sigmoid，ReLU用来替代sigmoid也降低梯度消失概率。
均值为0，方差为0.01。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。