- 如何解决梯度消失和梯度爆炸的问题?
问题类型 | 问题定义 | 解决措施 |
---|---|---|
梯度消失 | 根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重的结果 都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0. |
使用Relu 和batch normalization 以及循环神经网络里面的LSTM 和GRU 都可以解决这个问题 |
梯度爆炸 | 根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果 大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大。 |
可以使用梯度截断 、激活函数 、Batch Normalization 来解决。 |
- 深度学习调参经验
- 参数初始化
- 数据的预处理方式