第四周、梯度，损失函数和优化器

最新推荐文章于 2022-12-09 20:19:25 发布

enchant-ed

最新推荐文章于 2022-12-09 20:19:25 发布

阅读量241

点赞数

分类专栏： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012675171/article/details/107295544

版权

pytorch 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、梯度消失与爆炸

1.1 梯度

在这里插入图片描述
从上图可知，每一网络层输出不能太大或太小，否则会导致梯度爆炸或者梯度消失

对权重W进行处理，使其方差为1/n，则隐藏输出的方差也为1，这样使得经过累乘，依然保持到一个很小的数

1.2 Xavier方法

在这里插入图片描述
方差一致性: 保持数据尺度维持在恰当范围,通常方差为1
激活函数: 饱和函数, 如Sigmoid, Tanh

1.3 Kaiming方法

在这里插入图片描述
方差一致性:保持数据尺度维持在恰当范围,通常方差为1
激活函数: ReLU及其变种

1.4 常用初始化方法

在这里插入图片描述

二、损失函数

1.1 基本概念

在这里插入图片描述

1.2 交叉熵损失函数–nn.CrossEntropyLoss

在这里插入图片描述

三、优化器

3.1 基本概念

在这里插入图片描述

3.2 optimizer的属性

在这里插入图片描述

3.3 optimizer的方法

zero_grad()
说明：

在优化器中保存的是参数的地址，根据地址寻找参数，减少内存消耗
通过zero_grad()方法后，就实现了参数梯度的清零

在这里插入图片描述

3.4 十种优化器

optim.SGD:随机梯度下降法
optim.Adagrad:自适应学习率梯度下降法
optim.RMSprop: Adagrad的改进
optim.Adadelta : Adagrad的改进
optim.Adam : RMSprop结合Momentum
optim.Adamax: Adam增加学习率上限
optim.SparseAdam:稀疏版的Adam
optim.ASGD:随机平均梯度下降
optim.Rprop :弹性反向传播
optim.LBFGS: BFGS的改进

三级目录

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。