1、是否需要太考虑local optimum?
我们之前在学习梯度下降的时候,提及到梯度下降容易陷入局部最优(local optimum)的情况,那么在深度学习的梯度下降中,是否需要过分考虑local optimum的情况呢?——不需要太担心,因为没有太多的local optimum的,要出现local optimum的情况是需要出现像在梯度下降中的山谷的谷底,假设在一个参数的训练中出现山谷的谷底的概率为1%,神经网络中的参数数量动辄百万千万甚至上亿,因此出现山谷的情况很低很低(很多个1%相乘),所以在神经网络使用梯度下降训练参数的,不需要过分担心局部最优情况。
持续更新中
参考资料
台大李宏毅2020深度学习课程