深层神经网络难拟合与Batch Normalization问题

最新推荐文章于 2023-07-10 18:54:52 发布

black_shuang

最新推荐文章于 2023-07-10 18:54:52 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习读书笔记文章标签：深层神经网络 BatchNormalization 加速拟合

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/black_shuang/article/details/93331060

版权

本文探讨了深层神经网络随着层数加深，由于Internal Covariate Shift导致训练难度增加的原因，并介绍了Batch Normalization（BN）如何通过调整输入数据分布，使其回归近似均值为0，方差为1的正态分布，从而加速模型拟合，避免梯度消失问题。BN在保持网络非线性学习能力的同时，通过scale和shift参数平衡了线性与非线性表达能力的权衡。

摘要由CSDN通过智能技术生成

主要总结两个问题:

为什么传统的深层神经网络，随着层数的增加会越来越难拟合训练？
问题1的常见对策(Batch_Normalization)的介绍

一、为什么传统的深层神经网络，随着层数的增加会越来越难拟合训练？

众所周知,传统的深层神经网络，随着层数的加深，模型会变得很难训练，很难拟合，这个很多人都知道，但是为什么呢，怎么样解释清楚？

首先机器学习领域有一个很重要的假设：即独立同分布假设,就是假设训练数据与测试数据是满足相同分布，这是通过训练数据获得的模型能够在测试集上获得好的效果的一个基本保障。

传统的深层神经网络，随着层数加深，很难拟合：

究其原因是因为深层神经网络不同层之间会进行非线性变换，目的是通过非线性变换使得网络能够得到更强的表征能力，多层的线性叠加是没有意义的。

多层的这种非线性变换带来的结果就会使得模型的训练数据的分布会发生偏移或者变动，这个现象叫做Internal Covariate Shift，之所以会训练收敛很慢，是

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深层神经网络难拟合与Batch Normalization问题

主要总结两个问题:为什么传统的深层神经网络，随着层数的增加会越来越难拟合训练？问题1的常见对策(Batch_Normalization)的介绍一、为什么传统的深层神经网络，随着层数的增加会越来越难拟合训练？众所周知,传统的深层神经网络，随着层数的加深，模型会变得很难训练，很难拟合，这个很多人都知道，但是为什么呢，怎么样解释清楚？首先机器学习领域有一个很重要的假设：即独立同分布假设...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。