总结2: Batch Normalization反向传播公式推导及其向量化

最新推荐文章于 2024-07-30 12:10:19 发布

MengPanDeepLearning

最新推荐文章于 2024-07-30 12:10:19 发布

阅读量8k

点赞数 10

分类专栏： Scala学习者深度学习学习者唯品会开发实习生同济大学硕士在读文章标签：深度学习 scala 吴恩达 BatchNorm 反向传播

本文链接：https://blog.csdn.net/pan5431333/article/details/78052867

版权

这篇博客详述了作者在理解并推导Batch Normalization（BN）反向传播过程中的经历，包括遇到的问题、解决方法以及最终的向量化实现。作者从吴恩达的课程出发，逐步推导了BN的反向传播公式，并用Scala实现了BN的反向传播，强调了在实现过程中向量化的重要性。

摘要由CSDN通过智能技术生成

1. 背景介绍

上周学习了吴恩达的Deep Learning专项课程的第二门课，其中讲到了Batch Normalization（BN）。但在课程视频中，吴恩达并没有详细地给出Batch Normalization反向传播的公式推导，而是从high level的角度解释了为什么Batch Normalization会work，以及如何在TensorFlow等framework中使用Batch Norm。

我自己首先尝试了一下推导BN反向传播的公式，但是用代码实现后跑的结果都不甚理想，收敛速度比不使用BN还要慢甚至有时候无法收敛，应该是公式推错了。接着我在网上搜索到Google最开始提出BN的论文，里面给出了反向传播的公式，但是不是以向量化的形式给出的。众所周知，我们实现深度网络应该依赖于向量计算。我看着公式以自己的理解写出了向量的形式，但是实现后结果仍旧不正常。

接着在网上搜索其他人介绍BN的博客文章，绝大多数文章都是前面讲一大堆BN的好处，消除Internal Convariate Shift，加快收敛，减少Dropout的使用，起到部分正则化等等，然后涉及到核心的公式部分时，话锋一转，说BN反向传播部分的推导很简单，就是利用了Chain Rule，接着就给出了与论文中一模一样的公式。看着让人很是头疼。

就这样停滞了大概三四天的时间，但是我实在不甘心仅仅会使用TensorFlow中提供的BN模块，而搞不懂BN的详细推导。终于，我下定决心抽出一整天的时间拿出纸笔一步步的演算，最终心静下来花了大概一个小时算出来，然后代码实现之后跑起来结果就正常了。