【深度学习】(二) 优化算法

最新推荐文章于 2024-09-13 17:56:14 发布

chendh1977

最新推荐文章于 2024-09-13 17:56:14 发布

阅读量664

点赞数 16

分类专栏：深度学习文章标签：深度学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CHENDONGHAO1105/article/details/142202403

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 归一化

将输入归一化成 $\mu = 0，\sigma^2 = 1$ 的一组数据

$\mu^{[l]} = \frac{1}{m}\sum_{i=0}^mz^{[l](i)}$

$\sigma^{2[l]} = \frac{1}{m}\sum_{i=0}^m(z^{[l](i)}-\mu^{[l]})^2$

$z_{norm}^{[l]} = \frac{z^{[l](i)}-\mu^{[l]}}{\sqrt{\sigma^{2[l]} + \epsilon}}$

$\widetilde{z^{[l]}} = \gamma z_{norm}^{[l]} + \beta$

此处 $\gamma，\beta$ 都是参数而非超参数，作用在于可以随意设置 $\widetilde{z^{[l]}}$ 的平均值。

2. 正则化

2.1 L2 正则化

$\frac{1}{m}\sum_{i=1}^mL(\widehat{y}, y) + \frac{\lambda}{2m}\|w^{[l]}\|_F^2$

$\|w^{[l]}\|_F^2 = \sum_{i=0}^{n[l]}\sum_{j=0}^{n[l-1]}(w_{ij})^2$

$W^{[l]} = (1-\frac{\alpha\lambda}{m})W^{[l]} - \alpha dW^{[l]}$

$b^{[l]} = (1-\frac{\alpha\lambda}{m})b^{[l]} - \alpha db^{[l]}$

为什么 L2 正则化能减少过拟合

正则化 $\lambda$ 设置得足够大，权重矩阵 $W$ 被设置为接近于 0 的值，直观理解就是把多隐藏单元的权重设为 0，于是基本上消除了这些隐藏单元的许多影响，使得模型更加简单。

2.2 dropout 正则化

$d^{[l]} = np.random.rand(a^{[l]}.shape[0], a^{[l]}.shape[1]) < keep-prob$

$a^{[l]} = np.multiply(a^{[l]}, d^{[l]})$

$a^{[l]} /= keep-prob$

为什么 dropout 能减少过拟合

正则化 $\lambda$ 设置得足够大，权重矩阵 $W$ 被设置为接近于 0 的值，直观理解就是把多隐藏单元的权重设为 0，于是基本上消除了这些隐藏单元的许多影响，使得模型更加简单。

以 $k ee p - p ro b$ 的概率随机失活一部分神经单元，随机消除一部分神经单元的影响，起到了类似于 L2 正则化的影响。

在测试阶段不使用随机失活。

3. 参数初始化

$z = w_1x_1 + w_2x_2 + …… + w_nx_n$

为了解决梯度爆炸或梯度消失，你希望 $n$ 越大， $W$ 越小

先随机初始化参数矩阵

$W^{[l]} = np.random.rand(n^{[l]}, n^{[l-1]}) $

接着根据不同的激活函数处理参数矩阵

$s i g m o d / t an H$ ： $W^{[l]} = W^{[l]} * \sqrt{\frac{1}{n^{[l-1]}}}$

$R e LU$ ： $W^{[l]} = W^{[l]} * \sqrt{\frac{2}{n^{[l-1]}}}$

4. 优化算法

4.1 mini-batch 梯度下降

将样本均分，分成一个个 mini-batch，每个 mini-batch 的个数最好是 2 的次方个数，例如 64，128，256，512……

采用 mini-batch 梯度下降会使得损失函数并非严格递减，但总体趋势是递减的。

4.2 动量梯度下降算法

指数加权平均数

$v_0 = 0$

$v_1 = \beta v_0 + (1-\beta)\theta_1$

……

$v_t = \beta v_{t-1} + (1-\beta)v_t$

动量梯度算法，从坐标轴的角度老看，就是减少 $b$ 方向上的波动，加速 $W$ 方向上的波动，使得损失加速降低。以下公式均省略了层数。

$v$ 都初始化为 0。

$v_{dW} = \beta v_{dW} + (1-\beta)dW$

$v_{db} = \beta v_{db} + (1-\beta)db$

$ W = W - \alpha v_{dW}$

$ b = b - \alpha v_{db}$

4.3 RMSprop 算法

$S_{dW} = \beta S_{dW} + (1-\beta)dW^2$

$S_{db} = \beta S_{db} + (1-\beta)db^2$

$ W = W - \alpha \frac{dW}{\sqrt{S_{dW}}}$

$ b = b - \alpha \frac{db}{\sqrt{S_{db}}}$

4.4 Adam 算法

动量梯度下降+RMSprop

$v_{dW} = \beta_1 v_{dW} + (1-\beta_1)dW$

$v_{db} = \beta_1 v_{db} + (1-\beta_1)db$

$S_{dW} = \beta_2 S_{dW} + (1-\beta_2)dW^2$

$S_{db} = \beta_2 S_{db} + (1-\beta_2)db^2$

$ W = W - \alpha \frac{v_{dW}}{\sqrt{S_{dW} + \epsilon}}$

$ b = b - \alpha \frac{v_{db}}{\sqrt{S_{db} + \epsilon}}$

$v, S$ 都初始化为 0。

4.5 学习率衰减算法

$\alpha = \alpha_0 \frac{1}{1+decayrate*epoch-num}$

此处 $d ec a yr a t e$ 也是超参数

5. 超参数有哪些

5.1 fisrt

$\alpha$

5.2 second

$\beta$ = 0.9

#hidden units

$mini - ba t c h - s i ze$

5.3 third

#layers

$d ec a yr a t e$

5.4 last

$\beta_1 = 0.9$

$\beta_2 = 0.999$

$\epsilon = 10^{-8}$

6. 尝试超参数时要选择合适的尺度

关注

16
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。