深度学习中的Internal Convariate Shift (ICS) 问题

hxxjxw

已于 2022-04-10 00:18:12 修改

阅读量816

点赞数 2

文章标签：深度学习

于 2022-04-10 00:17:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hxxjxw/article/details/124071106

版权

深度学习网络模型的训练为什么会很困难？其中一个重要的原因是，深度神经网络设计到很多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化。通过层层叠加，高层的输入分布变化会非常剧烈，这就使得高层需要不断去重新适应底层的参数更新。为了训练好模型，我们需要非常谨慎地设定学习率、初始化权重以及尽可能细致的参数更新策略。

Google将这一现象总结为Internal Convariate Shift，简称ICS。

Google提出BN的本之就是能够解决ICS问题，但是最近也有paper指出BN并没有解决ICS问题，其解决的是对目标函数空间增加了平滑约束，从而使得利用更大的学习率获得更好的局部优解）

ICS会导致什么问题？

　　简而言之，每个神经元的输出数据不再是“独立同分布”。

　　其一，上层的参数需要不断的适应新的输入数据分布，降低学习速度。

　　其二，下层输入的变化可能趋向于变大或者变小，导致上层落入饱和区，使得学习过早停止。

　　其三，每层的更新都会影响到其他层，因此每层的参数更新策略需要尽可能的谨慎。

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习中的Internal Convariate Shift (ICS) 问题

深度学习网络模型的训练为什么会很困难？其中一个重要的原因是，深度神经网络设计到很多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化。通过层层叠加，高层的输入分布变化会非常剧烈，这就使得高层需要不断去重新适应底层的参数更新。为了训练好模型，我们需要非常谨慎地设定学习率、初始化权重以及尽可能细致的参数更新策略。Google将这一现象总结为Internal Convariate Shift，简称ICS。Google提出BN的本之就是能够解决ICS问题，但是最近也有paper指出B...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。