作业1:初始化
- 不同的初始化会导致不同的结果
- 随机初始化用于打破对称性,并确保不同的隐藏单元可以学习不同的东西
- 不要初始化为太大的值
- 随机初始化对于带有ReLU激活的网络非常有效
Xavier初始化还不会!!!
作业2:正则化
- 正则化将帮助减少过拟合。
- 正则化将使权重降低到较低的值。
- L2正则化和Dropout是两种非常有效的正则化技术
L2正则化的影响:
- 损失计算:
- 正则化条件会添加到损失函数中 - 反向传播函数:
- 有关权重矩阵的渐变中还有其他术语 - 权重最终变小(“权重衰减”):
- 权重被推到较小的值。
Dropout
Dropout是广泛用于深度学习的正则化技术。 它会在每次迭代中随机关闭一些神经元。
使用dropout时的常见错误是在训练和测试中都使用。你只能在训练中使用dropout(随机删除节点)
作业三:梯度检验
- 梯度检验可验证反向传播的梯度与梯度的数值近似值之间的接近度(使用正向传播进行计算)
- 梯度检验很慢,因此我们不会在每次训练中都运行它。通常,你仅需确保其代码正确即可运行它,然后将其关闭并将backprop用于实际的学习过程。