深度学习标准化

最新推荐文章于 2024-06-09 19:37:22 发布

叫什么就是什么

最新推荐文章于 2024-06-09 19:37:22 发布

阅读量2.5k

点赞数 3

分类专栏： deeplearning 笔记文章标签： deep learning normalization

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24548569/article/details/84782487

版权

深度学习标准化

引言

何凯明在他的论文《Rethinking ImageNet Pre-training》中不使用ImageNet预训练，直接使用参数随机初始化方式（scratch），成功地训练出目标检测任务的神经网络模型。

为什么使用Batch Normalization不能从scratch训练目标检测任务的模型？

为什么何凯明使用Group Normalization和Synchronized Batch Normalization就能训练出来？

深度网络训练的问题

总所周知，深度网络训练会遇到两个大问题：梯度消失和梯度爆炸。

假设网络没有使用非线性函数，不考虑偏置b，设每层网络层输入为 $x^{(k-1)} \in \mathbb{R}^{n_{k-1} \times 1}$ ，参数是 $W^{(k)} \in \mathbb{R}^{n_{k} \times n_{k-1}}$ ，输出为 $x^{(k)} \in \mathbb{R}^{n_{k} \times 1}$ ，每一层网络层的操作是

$\begin{aligned} x^{(k)} & = W^{(k)} x^{(k-1)} \\ & = W^{(k)} W^{(k-1)} x^{(k-2)} \\ & = W^{(k)} W^{(k-1)} \cdots W^{(1)} x^{(0)} \end{aligned}$
梯度消失

假设 $\begin{pmatrix} 0.5 & 0 \\ 0 & 0.5 \end{pmatrix}$ ，即

$x^{(k)} = W^k x^{(0)} = \begin{pmatrix} 0.5^k & 0 \\ 0 & 0.5^k \end{pmatrix} x^{(0)}$

随着k的增大，x的值越来越小，从而梯度呈指数级别下降，接近于0，这会导致梯度下降参数更新的非常缓慢，降低收敛速度。

梯度爆炸

假设 $\begin{pmatrix} 1.5 & 0 \\ 0 & 1.5 \end{pmatrix}$

最低0.47元/天解锁文章

叫什么就是什么

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
深度学习标准化

深度学习标准化引言何凯明在他的论文《Rethinking ImageNet Pre-training》中不使用ImageNet预训练，直接使用参数随机初始化方式（scratch），成功地训练出目标检测任务的神经网络模型。为什么使用Batch Normalization不能从scratch训练目标检测任务的模型？为什么何凯明使用Group Normalization和Synchronized...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。