过拟合、欠拟合及其解决方案 初始化模型参数定义L2范数惩罚项定义训练和测试观察过拟合使用权重衰减 梯度消失、梯度爆炸 获取和读取数据集预处理数据训练模型K折交叉验证模型选择预测并在Kaggle中提交结果 循环神经网络进阶 GRULSTM深度循环神经网络双向循环神经网络 机器翻译及相关技术 数据预处理分词建立词典载入数据集Encoder-Decoder 注意力机制与Seq2seq模型 注意力机制点积注意力多层感知机注意力 Transformer Transformer多头注意力层基于位置的前馈网络位置编码编码器解码器