理解训练/验证/测试集、偏差/方差、正则化以及梯度消失/梯度爆炸/梯度检验等基本的概念。
需重点掌握为什么正则化可以减少过拟合,以及对梯度消失和梯度爆炸产生的原因和解决的方法。
训练/验证/测试集,数据量在百万级以下,可以60/20/20,百万级,98/1/1就可以了。
偏差/方差,偏差vias,方差variance,看实际的情况,可能既有偏差,又有方差。
正则化:L2正则化,有lambda,增大lambda,W会减小,网络会简化,
dropout(随机失活),inverted dropout(反向随机失活),是随机失活的一种方式,随机减小一些网络,在测试的时候不能 用。
梯度消失/梯度爆炸:W大于1或小于1的时候,网络加深,会是结果呈指数型增长
梯度检验:另一种算梯度,与我们迭代时算出的梯度计算距离,如果很接近,说明正常梯度下降。
梯度检验时不能使用dropout方法。