batch normalization论文

最新推荐文章于 2022-06-28 22:06:40 发布

fffupeng

最新推荐文章于 2022-06-28 22:06:40 发布

阅读量384

点赞数

分类专栏： deep learning论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fffupeng/article/details/72279690

版权

通过减少internal Covariate shift加速深度网络的训练。

什么是internal Covariate shift?

由于前一层参数的变化导致了后一层输入分布的变化。这需要减少学习率并且需要小心地初始化网络，并且由于非线性激活层饱和很难进行继续训练。

因此作者提出了BN。经过batch normazation我们可以使用更高的学习率进行训练，并不需要特意关注初始化，并且在一些情况下可以减少Dropout层的使用。

问题从何而来：

目前训练网络通常采用sgd with mini-batch，首先我们从这里出发。

mini-batch的优势？

1、mini-batch 的loss是对整个数据集loss的估计，一定程度上反映了数据集的质量。

2、由于计算的并行型，计算多个梯度比计算单独一个梯度效率更高。

sgd随机梯度下降法：

随机梯度下降法非常简单并且有效，但是需要非常小心地调整模型的超参数，特备是学习率和模型初始化的值。训练的过程非常复杂，每一层的输入都受到之前参数的影响，所以网络参数即使变化很小，在很深的网络中也非常大。

举个例子：

对于z = g（Wu+b），其中z为某层的输出，g为sigmod函数，W为该层的权重，b为该层的偏置。当|x|增加时，g'也就是sigmod函数的梯度趋向于0，这意味着z相对于u的梯度消失了，因此训练速度也就减慢了。

通常解决方法是将sigmod函数换成relu（x） = max（0，x）线性修正函数，并且小心地初始化

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
batch normalization论文

通过减少internal Covariate shift加速深度网络的训练。什么是internal Covariate shift? 由于前一层参数的变化导致了后一层输入分布的变化。这需要减少学习率并且需要小心地初始化网络，并且由于非线性激活层饱和很难进行继续训练。因此作者提出了BN。经过batch normazation我们可以使用更高的学习率进行训练，并不需要特意关注初始化，并且在一
复制链接

扫一扫

专栏目录

博客等级

码龄12年

90
原创

38
点赞

109
收藏

21
粉丝

关注

私信

热门文章

分类专栏

c++ 16篇
数据结构 4篇
deep learning论文笔记 16篇
linux 4篇
Leetcode 19篇
boost 3篇
plate recongnize
caffe 14篇
python 10篇
yolo 4篇
CUDA 1篇
cs231课程学习 6篇
deep learning 15篇
图像处理 4篇
电影
tensorflow 4篇
NS_ML 1篇

最新评论

yolo测试代码梳理
Tisfy: 看完之后，我激动的心情久久不能平复
caffe 添加Python层
马到成功.: 博主你好，我最近也在用caffe跑东西，但是遇到了点问题，想要请教下您，就是在执行训练文件的时候，代码运行到迭代部分就停在那不动了这是怎么回事呢？期待您的回复，谢谢。 [code=python] I0922 10:40:59.692507 9525 upgrade_proto.cpp:72] Successfully upgraded file specified using deprecated input fields. W0922 10:40:59.692509 9525 upgrade_proto.cpp:74] Note that future Caffe releases will only support input layers and not input fields. I0922 10:40:59.775990 9525 net.cpp:746] Ignoring source layer fc8 I0922 10:40:59.776000 9525 net.cpp:746] Ignoring source layer prob I0922 10:40:59.779959 9525 solver.cpp:57] Solver scaffolding done. I0922 10:40:59.780611 9525 caffe.cpp:239] Starting Optimization I0922 10:40:59.780618 9525 solver.cpp:289] Solving RankIQA_siamese_train_test I0922 10:40:59.780622 9525 solver.cpp:290] Learning Rate Policy: step I0922 10:40:59.782059 9525 solver.cpp:347] Iteration 0, Testing net (#0) [/code]
caffe 添加Python层
雨后天空sunny: 请问Python下添加layer的GPU 实现有模板吗？
导数，偏导，方向倒数，梯度
xuxiaoyi67: 666666666666666666666
yolo 源码分析
小小小吃货: 博主您好。请问在yolo.c的文件里面怎么修改？可以说一下您修改的过程吗？谢谢了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。