深度学习——数值稳定性、模型初始化、激活函数

茴豆

已于 2024-09-27 21:07:11 修改

阅读量195

点赞数 5

文章标签：深度学习人工智能

于 2024-09-27 21:06:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80780428/article/details/142602019

版权

数值稳定性

随着网络的层数的增加，数值可能变得不稳定

数值稳定性常见的两个问题：

1、梯度消失

2、梯度爆炸

梯度爆炸例子：MLP（多层感知机）

对角矩阵一个主对角线之外的元素皆为0的矩阵

是

假设我们使用relu函数作为激活函数，所以就是一些1和0的对角矩阵

梯度爆炸的问题就是：超出值域变infinity

学习率的调整问题：

梯度消失

梯度消失的问题：梯度值变成0，对16位浮点数尤为严重

训练更稳定方法

训练更稳定的方法就使梯度值在合理范围之内，可使用的方法有合理的权重初始化和激活函数

常用权重初始化的方法

假设权重是一些独立同分布，那么每一个元素的均值就是0，方差就是。那么，这当前层的的输入hi^t-1，就也是独立于我当前层的权重。假设没有激活函数，那，

做了这些假设之后，两个独立同分布可以写开，我们的计算就变成了下面这样：

对于正向方差，

对于反向均值和方差，跟正向情况类似，

均值都是为0的，那么想要让两个方差一样，就需要满足两个条件，但是这两个条件很难同时满足，可以做一点权衡，取折中。-------Xavier初始

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。