李宏毅———类神经网络训练不起来的解决方法

一、局部最小值与鞍点

在这里插入图片描述

逃离saddle point 方法

一、看Hessian

在这里插入图片描述
在这里插入图片描述

eigen values 特征值

在这里插入图片描述
例子:y=w1w2x
training data y=1 x=1

Hesssian的取法

在这里插入图片描述

如果遇到saddle point 还可以看Hession Hession告诉我们更新参数的方向

在这里插入图片描述
在这里插入图片描述

localminima 可能在更高维度上是saddle point
事实上 实验中绝大多数甚至是全部都是 saddle point
minimum ratio =正的特征值/全部特征值 最高不到0.6
在这里插入图片描述

二、批次(batch)与动量(momentum)


1.Batch


在这里插入图片描述
**

每更新一个参数叫1update ,所有的batch算完叫1epoch。

**
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

**small batch与large batch比较 **
在这里插入图片描述

2.动量(momentum)

一般的gradient descent
在这里插入图片描述
在这里插入图片描述
也可以说update方向为之前所有Gradient反方向的总和

三、自动调整学习率(learning rate)

训练卡住,可能既不是local minima,也不是saddle point
训练卡住并不代表小的梯度

在这里插入图片描述
在这里插入图片描述

具体操作
在这里插入图片描述

在这里插入图片描述

α为 Hyperparameters自己设定的参数

  • 现在常用的optimization方法:
    在这里插入图片描述
    在这里插入图片描述

动态的learning rate方法

在这里插入图片描述

总结optimization

在这里插入图片描述

四、损失函数Loss的影响

在这里插入图片描述

Soft-max操作方法

在这里插入图片描述
在这里插入图片描述

为什么用Cross-entropy在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值