深层神经网络难拟合与Batch Normalization问题

本文探讨了深层神经网络随着层数加深,由于Internal Covariate Shift导致训练难度增加的原因,并介绍了Batch Normalization(BN)如何通过调整输入数据分布,使其回归近似均值为0,方差为1的正态分布,从而加速模型拟合,避免梯度消失问题。BN在保持网络非线性学习能力的同时,通过scale和shift参数平衡了线性与非线性表达能力的权衡。
摘要由CSDN通过智能技术生成

主要总结两个问题:

  1. 为什么传统的深层神经网络,随着层数的增加会越来越难拟合训练?
  2. 问题1的常见对策(Batch_Normalization)的介绍

一、为什么传统的深层神经网络,随着层数的增加会越来越难拟合训练?

众所周知,传统的深层神经网络,随着层数的加深,模型会变得很难训练,很难拟合,这个很多人都知道,但是为什么呢,怎么样解释清楚?

首先机器学习领域有一个很重要的假设:即独立同分布假设,就是假设训练数据与测试数据是满足相同分布,这是通过训练数据获得的模型能够在测试集上获得好的效果的一个基本保障。

传统的深层神经网络,随着层数加深,很难拟合:

究其原因是因为深层神经网络不同层之间会进行非线性变换,目的是通过非线性变换使得网络能够得到更强的表征能力,多层的线性叠加是没有意义的。

多层的这种非线性变换带来的结果就会使得模型的训练数据的分布会发生偏移或者变动,这个现象叫做Internal Covariate Shift,之所以会训练收敛很慢,是

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值