本文为Charu C. Aggarwal的一书的笔记。
由于递归神经网络中,不同层敏感度的变化和共享的参数,导致网络具有较大的不稳定效应,如,梯度消失和梯度爆炸(vanishing and exploding gradient)。
解决这一问题的方法有以下几种:
1. 对训练参数应用强的正规化
但是非常强的正规化,会导致模型无法达到其全部的潜能。
2. 梯度截断 gradient clipping
梯度截断主要有两种形式:
2.1 基于数值的截断 value-based clipping
在对梯度进行相加前,先对梯度中的最大分量进行截断
2.2 基于范数的截断
当整个梯度矢量的范数增加到超过设定阈值,则将其重尺度化,使其回到阈值以下。
3. Batch normalization
这种方法需要对递归网络做一些修改
4. Layer normalization
这种方法相对batch normalization来说,对递归神经网络更有效
5. 使用echo-state网络
这种网络,hidden-to-hidden矩阵随机选择,只训练输出层
6. 使用LSTM
LSTM引入了一些额外的状态(长期状态),这些长期记忆所提供的状态随时间更稳定,也对梯度下降过程提供了较高的稳定水平。