李宏毅机器学习笔记Day6——神经网络训练技术

RosieDragon

于 2022-05-25 16:33:22 发布

阅读量154

点赞数

文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_45848398/article/details/124963328

版权

训练技术：Adaptive Learning Rate
当parameters在critical point 附近时，Loss已经很小时（trainings stuck），gradient并没有很小。
在这里插入图片描述
Learning rate 不能是one-size-fits-all，不同的参数需要不同的Learning rate，引入Parameter dependent。

Root mean square ：用在Adagrad里。坡度小，σ小，learning rate大，step大，坡度大，σ大，learning rate小，step小，从而可以自动调整learning rate 的大小。
在这里插入图片描述
当error surface非常复杂时，同一个参数也有可能需要调整learning rate

方法：RMSProp
Adam：RMSProp+Momentum

Learning rate scheduling
加上Learning rate decay

Warm up

Optimization的总结
对gradient descent进行了改正

Classification
把class用one-hot vector表示，用softmax将output 调到0到1之间，output与y_hat越接近越好
在这里插入图片描述

Loss of classification
用cross-entropy

可以改变loss function，降低error surface的复杂度，从而降低难度。