Coursera Deeplearning.ai「深度学习」课程笔记L2.W3超参数调试、正则化和程序框架

最新推荐文章于 2024-06-13 22:26:14 发布

XLearning88

最新推荐文章于 2024-06-13 22:26:14 发布

阅读量252

点赞数

分类专栏：吴恩达deeplearning机器学习笔记文章标签：机器学习吴恩达深度学习

本文链接：https://blog.csdn.net/XLearning88/article/details/89392367

版权

9 篇文章 0 订阅

订阅专栏

1. 超参数范围选择

学习率 $\alpha$
$\alpha =10^r$ ，其中 $r\in[a,b]，r为随机数$ ，因此 $\alpha\in[10^a, 10^b]$
即，在对数坐标下取值
$\beta$
期望 $\beta\in[0.9, 0.999]$ ，则取 $r\in[-3, -1]$ ，设 $1-\beta=10^r$ ，所以 $\beta=1-10^r$

给定某一层隐藏单元值，从 $z^{(1)}$ 到 $z^{(m)}$ （ $Z^{[l](i)}$ ，简化写法，省略了 $^{[l]}$ ），归一化步骤如下：

$\mu=\frac{1}{m}\sum_iz^{(i)}$
$\sigma^2=\frac{1}{m}\sum_i(z^{(i)}-\mu)^2$
$z_{\text{norm}}^{(i)} = \frac{z^{(i)} -\mu}{\sqrt{\sigma^{2} +\varepsilon}}$ (为了使数值稳定，通常将 $\varepsilon$ 作为分母，以防 $σ = 0$ 的情况)
${\tilde{z}}^{(i)}= \gamma z_{\text{norm}}^{(i)} +\beta$ ( $\gamma$ 和 $\beta$ 是模型的学习参数，这里的 $\beta$ 与Momentum或Adam算法中的超参数 $\beta$ 毫无关系)

通过对 $\gamma$ 和 $\beta$ 合理设定，规范化过程。通过赋予 $\gamma$ 和 $\beta$ 其它值，可构造含其它平均值和方差的隐藏单元值。

探究框架，可写成一行代码，比如说，在TensorFlow框架中，你可以用这个函数（tf.nn.batch_normalization）来实现Batch归一化。即在深度学习框架中，Batch归一化的过程，经常是类似一行代码的东西。

Softmax激活函数实现过程：
假设， $z^{[L]}$ 这是最后一层的 $z$ 变量

$z^{[L]} = W^{[l]}a^{[L-1]} + b^{[l]}$
计算临时变量 $t=e^{z^{[L]}}$
$a^{[L]} = \frac{e^{z^{[L]}}}{\sum_{j =1}^{4}t_{i}}$ ，即 $a_{i}^{[l]} = \frac{t_{i}}{\sum_{j =1}^{4}t_{i}}$

Sigmoid 和 ReLu 激活函数：输入一个实数，输出一个实数。
Softmax激活函数：由于需要将所有可能的输出归一化，所以就需要输入一个向量，最后输出一个向量。

关注