Coursera Deep Learning笔记改善深层神经网络：超参数调试正则化以及梯度相关

最新推荐文章于 2021-01-12 21:53:58 发布

Douzi1024

最新推荐文章于 2021-01-12 21:53:58 发布

阅读量148

点赞数

文章标签： python 机器学习深度学习神经网络人工智能

本文链接：https://blog.csdn.net/Xiao_CangTian/article/details/108665457

版权

本文是Coursera深度学习课程的笔记，重点讨论如何改善深层神经网络，包括训练集、验证集、测试集的划分，偏差与方差分析，正则化方法如L1、L2正则化，随机失活（Dropout）以及梯度消失/爆炸的解决策略。通过正则化减少过拟合，通过归一化加速训练，确保模型的稳定性和性能。

摘要由CSDN通过智能技术生成

笔记：Andrew Ng's Deeping Learning视频

1. 训练集、验证集、测试集(Train, Dev, Test Sets)

高偏差(high bias)称为"欠拟合"(underfitting), 训练集误差与验证集误差都高.
- 选择一个新的网络，比如含有更多隐藏层或者隐藏单元的网络，或者花费更多时间来训练网络，或者尝试更先进的优化算法【后面深入讲解】
高方差(high variance)称为"过拟合"(overfitting), 训练集误差很低，而验证集误差很高.
- 解决方法是正则化
- 准备更多的数据.

避免过拟合

减少网络误差

对于L1正则化, 为代价函数添加L1范数:(几乎不用了)

\[J(w, b) = \frac{1}{m} \sum^{m}_{i=1} \mathcal{L}(a^{(i)}, y^{(i)}) + \frac{\lambda}{2m} ||w||_1 \]

其中：

\[||w||_1 = \sum^{n_x}_{j=1} |w_j| \]

对于L2正则化, 为代价函数添加L2范数:

\[J(w, b) = \frac{1}{m} \sum^{m}_{i=1} \mathcal{L}(a^{(i)}, y^{(i)}) + \frac{\lambda}{2m} ||w||_2^2 \]

其中：

\[||w||^2_2 = \sum^{n_x}_{j=1} w_j^2 = w^Tw \]

关注