理论基础:
RNN(Recurrent Neural Network) --- shortage: can't remember the memory long time ago.
LSTM(Long Short Term Memory) ---- 衍生算法:attention, transformer.
相比较而言:
LSTM多了一个标识为c(carry)的单元,可以理解为传送带。
传送带上的状态信息由遗忘门和输入门控制。
遗忘门:通过结合输入和激活函数,产出一个值(值大于0.5则输出1,否则输出0)------从而控制该段记忆是否被记住。
输入门:
输出门:
LSTM有多种变形。
利用LSTM生成文本:
滑动窗口概念:
序列(样本)长度,步长,一个样本后边紧跟的一个字符就是该样本的标签。a,b,c d
知识点*
- dropout: dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。
- Batch_size, epoch, iteration这三的概念,看这一链接足矣神经网络中Epoch、Iteration、Batchsize相关理解和说明_Mi