Cousera - Deep Learning - 课程笔记 - Week 5

最新推荐文章于 2024-09-15 17:22:56 发布

支锦铭

最新推荐文章于 2024-09-15 17:22:56 发布

阅读量126

点赞数

分类专栏： Cousera-课程笔记文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/cary_leo/article/details/105722160

版权

141 篇文章 17 订阅

订阅专栏

2018年9月版本

Week 5

提高模型设计的迭代效率
使用训练集训练模型
使用开发集测试模型，查看哪一个模型或算法在开发集上表现最好
用测试集进行最终的结果评估，避免开发时使用测试集造成偏差
由于开发集和测试集的基本目的在于快速的得出结论，在大数据时代，这二者在整个数据集中占有的比重就应当非常小了，因此合理的分割比例应该大致为98：1：1（百万级数据）
应当确保后二者的数据分布基本相同
在不需要无偏估计的情况下，没有测试集也是被允许的，这个时候就是在进行模型或算法的性能比较等等

有助于防止数据过拟合
逻辑回归 $J(w,b)=\frac{1}{m}\sum\limits_{i=1}^{m}L(\hat y^{(i)}, y^{(i)})+\frac{\lambda}{2m}||w||_2^2 \quad ||w||_2^2=\sum\limits_{j=1}^{n_x}w_j^2=w^Tw(欧几里得范数)$
上述内容称之为L2正则化（因为使用了w的L2范数）
还有一种L1正则化，即使用L1范数，有正则化项 $\frac{\lambda}{m}\sum\limits_{j=1}^{n_x}|w_j|=\frac{\lambda}{m}||w||_1$
使用L1正则化，会导致权重矩阵变得稀疏
λ称为正则化系数，应挑选最佳的系数，保持参数的L2范数较小以避免过拟合
神经网络 $J(W^{[1]},b^{[1]},W^{[2]},b^{[2]},\ldots,W^{[l]},b^{[l]})=\frac{1}{m}\sum\limits_{i=1}^{m}L(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}\sum\limits_{l=1}^{L}||W^{[l]}||^2_F$
$||W^{[l]}||^2=\sum\limits_{i=1}^{n^{[l]}}\sum\limits_{j=1}^{n^{[l-1]}}(w^{[l]}_{ij})^2$ ，称之为弗罗贝尼乌斯范数（Frobenius Norm）
L2正则化又称权重衰减（其效果会让权重变小一些）
当正则化系数较大时，会使得整个权重变得很小，因此整个网络产生的结果更加倾向于线性回归，因此更加不容易过拟合

数据增强（Data Augmentation）：扩增数据集，可以从既有数据集本身进行修改生成新的数据集
早终止法（Early Stopping）：分别画出梯度下降和开发集误差两条线，然后寻找最佳的状态点，即最小的开发集误差值（提前终止训练而不是等到J收敛），缺点是无法分开解决“最优化J”和“防止过拟合”这两个问题，使整个问题变得十分复杂

减去均值 $\mu = \frac{1}{m}\sum\limits_{i=1}^{m}x^{(i)} \quad x:=x-\mu$
归一化 $\sigma^2=\frac{1}{m}\sum\limits_{i=1}^{m}x^{(i)2} \quad x:=\frac{x}{\sigma^2}$
需要对训练集和测试集使用同样的均值和方差
让各个特征的数值分布更加均匀，有利于梯度下降过程

将所有的参数 $W^{[1]},b^{[1]},W^{[2]},b^{[2]},\ldots,W^{[l]},b^{[l]}$ 拼成一个巨大的参数向量θ
同理，将所有的导数值 $dW^{[1]},db^{[1]},dW^{[2]},db^{[2]},\ldots,dW^{[l]},db^{[l]}$ 拼成一个巨大的导数值向量dθ
验证问题： $d\theta是不是J(\theta)的导数$
- 对θ的每一个i分量 $\theta_i$ ：
  - $d\theta_{approx}[i]=\frac{J(\theta_1,\theta_2,\ldots,\theta_i+\epsilon,ldots)-J(\theta_1,\theta_2,\ldots,\theta_i-\epsilon,ldots)}{2\epsilon}$
  - 应当有 $d\theta_{approx}[i] \approx d\theta[i]$
- 检查欧式距离 $\frac{||d\theta_{approx}-d\theta||_2}{||d\theta_{approx}||_2+||d\theta||_2}$ 是否不超过ε的数量级