一般在深度网络参数学习时,
参数初始化的值一般都比较小
.
但是在训练 LSTM
网络时
,
过小的值会使得遗忘门的值比较小
.
这意味着前一时刻的信息大部分都丢失了,
这样网络很难捕捉到长距离的依赖信息
.
并且相邻时间间隔的梯度会非常小,
这会导致梯度弥散问题.因此遗忘的参数初始值一般都设得比较大,
其偏置向量𝒃𝑓
设为
1
或
2
.
LSTM面试——为什么在训练LSTM网络时遗忘的参数初始值一般都设得比较大?
最新推荐文章于 2024-06-19 08:11:40 发布