改善深层神经网络:超参数调试、正则化以及优化的目录
第一周深度学习的实用层面
训练集,交叉验证和测试集的比例选择
1.对于小规模数据时,10000及其以下,可以使用6:2:2
2.对于大规模数据时,一百万及其以上,应该使用98:1:1 or 99.5:0.4:0.1
偏差与方差
检测规则
训练集,交叉验证集,测试集要来自同一分布,例如图像识别中所有这三者的图片大小应完全相同
种类
高偏差(欠拟合):训练集和交叉验证集误差都很高,但是比较接近
高方差(过拟合):训练集误差很小,交叉验证集误差很大
高偏差和高方差同时存在:训练集和交叉验证集误差都很大,并且二者误差相距很远
正确拟合:训练集和交叉验证集误差都很小
注意,也可以用准确率误差来表示,如下图所示:
正则化(解决 overfitting)
正则化输入
如果输入特征之间的范围变化过大,那么要归一化
即X-X.mean()/X.var()
L1,L2正则化
运用于逻辑回归(L1 AND L2)
注意:L1正则化会导致最后出现很多W向量为0(W最终会稀疏),不太常用
运用于神经网络(L2)
图中W矩阵维度反了
关于该式的推导即是(一)中的计算图的一点小变形,推导如下:
C O S T = L ( A [ L ] , Y ) + λ 2 m ∑ l = 1 L ∥ w [ l ] ∥ 2 COST = L({A^{[L]}},Y) + \frac{\lambda }{
{2m}}{\sum\limits_{l = 1}^L {\left\| {
{w^{[l]}}} \right\|} ^2} COST=L(A[L],Y)+2mλl=1∑L∥∥∥w[l]∥∥∥2
d W [ l ] = ∂ L ( A [ L ]