前言
深度学习课程第二部分:改善神经网络:超参数调试、正则化以及优化,第一周深度学习的使用层面。实现2种正则化方法(L2和dropout),实现课程中讲到的权重初始化方法。
程序地址:https://github.com/ConstellationBJUT/Coursera-DL-Study-Notes
正则化
1、L2_regularization
由于损失函数添加正则项,这部分涉及到损失函数和反向传播程序的修改。
(1)损失函数修改
(2)反向传播修改
算是函数多了权重W项,每层dW需要添加Wl相关项。
2、dropout
这部分涉及前向传播和反向传播的修改,添加了关闭矩阵D。只作用在hidden layer。
(1)正向传播修改
(2)反向传播修改
实验结果和结论
本地实现和课件所给程序基本一致。dropout部分,前几千次迭代一致,3500次迭代后损失出现了nan,还没找出具体原因。
第2000次迭代:课件损失0.10396707442900771,本地损失0.10396707442900772。只有最后一位不同,哎!!!
第20000次迭代,课件损失0.06,本地损失nan。
这里dropout迭代次数取3546,损失nan前一次。
课件给出的结果