语言模型
1.循环神经网络RNN
(1)每一步的参数W是固定的;
(2)当前隐藏状态包含了所有前面出现的单词信息;
(3)给定一列词向量:
(4) RNN每一个步骤:
(5)训练:Cross Entropy损失函数:
(6)随机梯度下降SGD:
(7)梯度消失和爆炸问题:
原因:根据反向传播(链式法则),梯度会不断相乘,很容易引起梯度消失或者爆炸。
2. 长短期记忆网络LSTM
(1)LSTM是RNN的一种,大体结构几乎一样;
(2)区别:LSTM的“记忆细胞”被改造过;该记住的信息会一直传递,不该记住的信息会被“门”截断。
(3)RNN记忆细胞
(4)LSTM记忆细胞
(5)过程:
第一步:决定从“细胞状态”中丢弃什么信息——即“忘记门”;
第二步:决定访什么信息到“细胞状态”中;
Sigmoid层决定什么值需要更新;
Tanh层创建一个新的候选值向量C;
第三步:更新“细胞状态”;
公式:
(6)Gated Recurrent Unit
将忘记门和输入门合成了一个单一的更新门;
还混合了细胞状态和隐藏状态;
比LSTM简单;