自然语言几个重要的模型。
- 循环神经网络 (序列模型序列依赖问题)
- 双向循环神经网络(输入序列正向和反向依赖问题)
- 深度双向循环神经网络
- LSTM(梯度消失问题)
- GRU
- text CNN(一维卷积和池化)
- seq2seq(序列到序列问题)
- Attention(decoder对encoder输入序列注意力问题,从输入获取可用信息)
- Transform(对输入的序列分成q检索项 k键项 v值项进行计算,矩阵并行计算)
- 语言预训练方法ELMO (使用双向rnn组合中间层权重)
- 语言预训练方法BERT ERNIE (使用transform encoder部分无需标签,ERNIE主要处理中文场景按词mask)
- 语言预训练方法GPT (使用transform decoder部分)
1.循环神经网络
- 使用隐藏层保留之前时间步的信息
- 梯度裁剪 处理梯度爆炸问题,即超出阈值怎重置为阈值。因为在RNN中目标函数有关隐藏状态的梯度会因为时间步数较大或时间步较小而变大。