一、循环神经网络进阶——处理梯度较容易出现衰减或爆炸(BPTT)问题 1.GRU(重置⻔、更新⻔) 2.LSTM(遗忘门、输入门、输出门、记忆细胞) 3.深度循环神经网络——用上一层的输出作为下一层的输入 4.双向循环神经网络——考虑前后的值对它的影响 二、过拟合和欠拟合 1.欠拟合:模型无法得到较低的训练误差 2.过拟合:模型的训练误差远小于它在测试数据集上的误差 模型复杂度低容易造成欠拟合,高容易造成过拟合 数据集太小容易造成过拟合 解决过拟合的方法:权重衰减(L2 范数正则化)和丢弃法 三、 1.梯度消失和梯度爆炸——当层数较多时,梯度的计算也容易出现消失或爆炸 2.随机初始化模型参数 (1)PyTorch的默认随机初始化——线性主要使用正态分布的随机初始化方式 (2)Xavier随机初始化 3.考虑环境因素 (1)协变量偏移——样本发生本质改变,标签不变 (2)标签偏移 ——测试集中出现训练集没有的标签 (3)概念偏移——一个单词包含不同概念