1 循环神经网络和卷积神经网络
问题:处理文本数据时,循环神经网络与前馈神经网络相比有什么特点?
2 循环神经网络的梯度消失问题
问题:循环神经网络为什么会出现梯度消失或者梯度爆炸?有哪些改进方案?
~~~~~~~
循环神经网络模型的求解可以采用BPTT(基于时间的反向传播)算法实现,BPTT实际是反向传播算法的简单变种。
~~~~~~~
长短时记忆模型及其变种门控循环单元(GRU)等模型通过加入门控机制,很大程度上弥补了梯度消失所带来的损失。
3 循环神经网络中的激活函数
问题:在循环神经网络中能否使用ReLU作为激活函数?
~~~~~~~
当然可以作为激活函数,但是需要对矩阵的初值做一定限制,否则十分容易引发数值问题。循环神经网络的前向传播公式
4 长短期记忆网络(LSTM)
问题1:LSTM是如何实现长短记忆功能的?
问题2:LSTM里各模块分别使用什么激活函数,可以使用别的激活函数吗?
5 Seq2Seq(Sequence to Sequence)
问题1:什么是Seq2Seq模型?Seq2Seq模型有哪些优点?
问题2:Seq2Seq模型在解码时,有哪些常用的方法?
6 注意力机制
问题:Seq2Seq模型引入注意力机制是为了解决什么问题?为什么选用了双向的循环神经网络模型?