参数初始化
参数初始化共有三种方式:置为0、置为大随机数、置为随机数(0-1)、置为随机数(0-1)并乘以一个很小的数
目的:参数的设置,对学习效果的影响。
效果:基于本实验的结果,后两种都有较好的效果,最好的效果是最后一种。
第一种:有学习曲线可以看出,并没有进行学习。
第二种:权值设置过大,也许会造成梯度爆炸。
第三种:可以进行学习。
第四种:权值设置较小,但不是过小,学习效果针对本次数据恰好。
最后:权值若是设置极小,也许会造成梯度消失,学习效果不好。
正则化
正则化有两种(基于deeplearning.ai):dropout、L2正则化。
(1)dropout:是一种随机删除节点的方案。具体解决方案是:随机生成与当层已激活值结构一样的随机矩阵,然后矩阵的元素置为True|False,再将随机矩阵与已激活值相乘,达到随机删除节点的效果(前向传播的具体实现细节)。由于在前向传播时使用dropout随机删除节点优化神经网络,因此在后向传播时节点也应该保持一致(利用之前的随机矩阵进行处理计算好的梯度dA)。
(2)L2正则化:是一种利用增大系数λ,从而减小系数W的方案。具体解决方案是:在前向传播后,计算成本时增加正则化项,得到含有正则化项的成本。由于后向传播是基于成本函数求梯度,因此W的梯度应该带有λ系数。
目的:当边界过度拟合时,相比增加训练数据而言,可以使用正则化来减轻这一效果。
过度拟合的其中一个标志:对于训练集的精确度较好,但对于新的数据集准确度较差。可视化:可绘制训练集&测试集的学习曲线。评估度量值:查准率/召回率。
效果:两种都有很好的效果。但更推荐dropout(吴恩达说的hhh)。