Lesson 8 Batch Normalization

听课(李宏毅老师的)笔记,方便梳理框架,以作复习之用。本节课主要讲了batch normalization是什么,为什么要用batch normalization,是用来解决什么问题的,以及batch normalization在测试和训练上不同的计算方法

1. changing landscape

陡峭的error surface难train,因为这样的error surface对于参数的变化非常敏感,即使是微小的参数变化都可能导致错误值剧烈变化,不利于找到全局最优。
那么想让error surface变得平坦应该怎么做?
我们可以看下图,考虑两种输入X1=[1,2,3]和X2=[100,200,300],不难看出,由于X1引起的△L和由于X2引起的△L是不一样的,第二个△L明显偏大,这就造成了error surface的陡峭。如果我们将输入的X都变成一样的range,那么error surface也会变得各维度相似的平坦
在这里插入图片描述

2. feature normalization

输入的特征中,将同一维度的x加起来,算出平均值和σ
在这里插入图片描述
在经过第一层与W相乘后
得到的输出其实也可以看成下一层的输入,所以也可以做batch normalization。
又有一个问题出现了:是在active function之前做normalization 还是之后呢?
其实在实际操作中影响不大。所以无所谓。
在这里插入图片描述
在这里插入图片描述
如果z1改变,那么下图右侧所有的变量都要改,对于一个大网络来说,需要改变的data就非常多。
所以我们一般在batch内做normalization,这样计算量就不会那么大。这也是为什么叫 batch normalization。
在这里插入图片描述

3. batch normalization

3.1 训练

β和γ又是什么?
因为在z1,z2经过batch normalization后的平均数是0(因为本人不知道那个带~的字母怎么打哈哈),所以可能给network带来一些限制,这种限制可能会有负面影响。
那又有疑问了,*γ又+β,不是又不符合normalization了吗?本来是想要normalization的,现在又不是了,感觉不是很有病吗?实际上初始时,γ是one-vector,就全是1,而β是zero-vector,全是0,所以最开始还是符合normalization的,等找到比较好的error surface后,才把β和γ慢慢加进去。
在这里插入图片描述

3.2 测试

假如一个batch是64,如果是线上服务,不可能等到攒够64笔资料才做normalization,所以在testing的时候用的是moving average。moving average计算方式如下。
在这里插入图片描述
在各模型测试结果如下。可以看出,使用了normalization训练会更快达到较高的准确度。
在这里插入图片描述

4. internal covariate shift

gradient是根据a算出来的,适合用在a上不适合用在a’上。就说让a和a’有相同的分布比较好。但是有论文叫“how does batch normalization help optimization”打脸了这个观点,他认为a和a’的分布相不相同都不影响训练
在这里插入图片描述
在这里插入图片描述

  • 13
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

迟迟迟迟迟子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值