第三章 深度学习基础
要想更好地优化神经网络,首先,要理解为什么优化会失败,收敛在局部极限值与 鞍点会导致优化失败。其次,可以对学习率进行调整,使用自适应学习率和学习率调度。最 后,批量归一化可以改变误差表面,这对优化也有帮助
3.1 局部极小值和鞍点
3.1.1 临界点及其种类
局部极小值:一般的学习任务之中梯度为零的时候大多数考虑的是局部最小值
鞍点:鞍点其实就是梯度是零且区别于局部极小值和局部极大值(local maximum)的点,梯度为零的点除了局部最小值之外还有一个梯度为零的点就是鞍点
3.1.2 判断临界值种类的方法
如果知道损失函数的形状就可以来判断一个临界点到底是局部极小值还是鞍点,虽然我们无法知道整个损失函数的形状,但是如果我们给定一组参数,可以求出其附近的损失函数
3.1.3 逃离鞍点的方法
如果我们在现在的维度上没有路可以走出去,可以考虑是否在更高维上是否有路可以走,我们可以增加一个参数,让我们的损失函数变成一个可以逃离鞍点的函数,多数的时候,我们训练到一个梯度很小的地方,参数不更新了,只是遇到了一个鞍点