神经网络训练task5

最新推荐文章于 2024-08-09 08:52:25 发布

px?????

最新推荐文章于 2024-08-09 08:52:25 发布

阅读量106

点赞数

分类专栏：笔记文章标签：神经网络深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hellen2020/article/details/119915985

版权

笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

学习来源：https://www.bilibili.com/video/BV1JA411c7VT?p=8
神经网络训练
原因：training loss updates -not small enough(参数loss 为0，gradient is close to zero（loss 不下降卡在crtical point->有没有办法知道是卡在local minima(无路可走) 还是 saddle point（有路可走）)
判断方法：线性代数
泰勒展开式
在这里插入图片描述

在这里插入图片描述

Optimization with batch
在这里插入图片描述

将两个batch size 结合
Momentum
Vanilla（一般的） gradient descent遇到新的参数，计算一次 gradient，再向gradient 的反方向计算一次参数
Gradient descent+momentum
Gradient 的反方向加上前一步方向的结果
在这里插入图片描述

Error surface
自动调整学习速率adaptive learning rate
training卡住可能是loss不能再下降了，不是critical points
在这里插入图片描述

就算同一个参数同一个方向，learning rate也会随着时间而改变
在这里插入图片描述

Adagra 纵轴方向初始大，但后面累积了很小的gradent,又变大，摩擦力又变小
解决方法：learning rate scheduling,让learning rate 和时间有关
Learning rate decay 在这里插入图片描述

Warm up,让learning rate 先变大后变小
可能原因:at the beginning ,the estimate of σ has large variance

Classification 分类
在这里插入图片描述

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络训练task5

学习来源：https://www.bilibili.com/video/BV1JA411c7VT?p=8神经网络训练原因：training loss updates -not small enough(参数loss 为0，gradient is close to zero（loss 不下降卡在crtical point->有没有办法知道是卡在local minima(无路可走) 还是 saddle point（有路可走）)判断方法：线性代数泰勒展开式Optimization with
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。