李宏毅———类神经网络训练不起来的解决方法

久笙

于 2024-07-17 17:18:02 发布

阅读量237

点赞数 9

分类专栏：机器学习文章标签：神经网络人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79814410/article/details/140466926

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、局部最小值与鞍点

在这里插入图片描述

逃离saddle point 方法

一、看Hessian

在这里插入图片描述

eigen values 特征值

在这里插入图片描述
例子：y=w1w2x
training data y=1 x=1

Hesssian的取法

在这里插入图片描述

如果遇到saddle point 还可以看Hession Hession告诉我们更新参数的方向

在这里插入图片描述

localminima 可能在更高维度上是saddle point
事实上实验中绝大多数甚至是全部都是 saddle point
minimum ratio =正的特征值/全部特征值最高不到0.6

二、批次（batch）与动量（momentum）

1.Batch

在这里插入图片描述
**

每更新一个参数叫1update ，所有的batch算完叫1epoch。

**
在这里插入图片描述

**small batch与large batch比较 **

2.动量（momentum）

一般的gradient descent

也可以说update方向为之前所有Gradient反方向的总和

三、自动调整学习率（learning rate）

训练卡住，可能既不是local minima，也不是saddle point
训练卡住并不代表小的梯度

在这里插入图片描述

具体操作

在这里插入图片描述

α为 Hyperparameters自己设定的参数

现在常用的optimization方法：

动态的learning rate方法

在这里插入图片描述

总结optimization

在这里插入图片描述

四、损失函数Loss的影响

在这里插入图片描述

Soft-max操作方法

在这里插入图片描述

为什么用Cross-entropy

关注

9
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。