Task03:过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶
过拟合、欠拟合
模型复杂,数据简单,模型可以完全拟合训练数据,但和真实分布相去甚远,即为过拟合;反之模型简单,数据复杂,无法拟合训练数据,即为欠拟合。欠拟合就增加模型复杂度(最简单粗暴的方法,但还是应该具体问题具体分析,毕竟不是参数越多越好。复合实际问题的模型才是最好的模型)。
过拟合介绍两个方法,一个是权重约束,限制参数空间范围而降低模型拟合能力。另一个就是dropout,类似于boost的方法,Hinton大神提出的,随机坏死一些节点,增加鲁棒性。
梯度消失、梯度爆炸
消失和爆炸的原因就是随着网络层数的加深,梯度以指数传播,就很容易消失或者爆炸。
课件里面解释网络权重要随机初始化的原因在于当权重都一样的时候,一样的输入会导致一样的梯度,就使得所有权重都一样了。但这很有问题,训练的时候,每个权重所接受的输入当然不能会都是一样的,所以一样的初始化值并不会影响模型的训练。如果我没记错,应该是按高斯分布的随机初始化方法,网络收敛的更快,最终的效果更好。至于为什么,这就是炼丹者的传承啊!
循环神经网络
1.GRU
GRU比较好理解,一共两个门,更新门用于新旧隐层的加权平均用,重置门用于结合过去状态和当前输入来得到新的隐藏状态。重置门在这里似乎只是让当前输入来调节一下上一隐藏状态而已。
2.LSTM
相比GRU(GRU是LSTM的改良,但按它讲的顺序,就这样比较吧),LSTM将更新门拆分成遗忘门和输入门,来对隐层(记忆细胞)进行加权更新。同样候选记忆细胞由隐藏状态和当前输入一起生成,但这里没有重置门对隐藏状态进行筛选。