可点击该链接浏览在线幻灯片:http://deepbodhi.club/static/1.html
本次课主要分析了导致DNN训练困难的梯度不稳定问题,并介绍了解决这类问题的几种方法。包括:
- 参数初始化技术(梯度爆炸)
- 用非饱和激活函数替代饱和激活函数(梯度弥散)
- 用交叉熵损失函数替代MSE损失函数(梯度消失)
- 批量归一化技术(内部协变量偏移)
当然,除了这些方法,还有很多优化DNN的方法,包括利用无监督逐层预训练进行初始化的技术、超参数调试技术、改进的梯度下降算法(动量梯度下降、Adam等)、学习率衰减等。对DNN优化感兴趣的可以进一步深入研究。下一讲将介绍在图像处理中更常用的卷积深度神经网络。