使用Batch Normalization折叠来加速模型推理

最新推荐文章于 2023-10-24 23:05:14 发布

ronghuaiyang

最新推荐文章于 2023-10-24 23:05:14 发布

阅读量261

点赞数 1

文章标签：网络深度学习神经网络 python 人工智能

原文链接：https://towardsdatascience.com/speed-up-inference-with-batch-normalization-folding-8a45a83a89d8

版权

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Nathan Hubens

编译：ronghuaiyang

导读

如何去掉batch normalization层来加速神经网络。

介绍

Batch Normalization是将各层的输入进行归一化，使训练过程更快、更稳定的一种技术。在实践中，它是一个额外的层，我们通常添加在计算层之后，在非线性之前。它包括两个步骤：

首先减去其平均值，然后除以其标准差
进一步通过γ缩放，通过β偏移，这些是batch normalization层的参数，当网络不需要数据的时候，均值为0、标准差为1。

Batch normalization在神经网络的训练中具有较高的效率，因此得到了广泛的应用。但它在推理的时候有多少用处呢？

一旦训练结束，每个Batch normalization层都拥有一组特定的γ和β，还有μ和σ，后者在训练过程中使用指数加权平均值进行计算。这意味着在推理过程中，Batch normalization就像是对上一层（通常是卷积）的结果进行简单的线性转换。

由于卷积也是一个线性变换，这也意味着这两个操作可以合并成一个单一的线性变换！这将删除一些不必要的参数，但也会减少推理时要执行的操作数量。

在实践中怎么做？

用一点数学知识，我们可以很容易地重新对卷积进行排列来处理batch normalization。提醒一下，对一个输入x进行卷积之后再进行batch normalization的运算可以表示为：

那么，如果我们重新排列卷积的W和b，考虑batch normalization的参数，如下：

我们可以去掉batch normalization层，仍然得到相同的结果！

注意：通常，在batch normalization层之前的层中是没有bias的，因为这是无用的，也是对参数的浪费，因为任何常数都会被batch normalization抵消掉。

这样做的效果怎样？

我们将尝试两种常见的架构：

使用batch norm的VGG16
ResNet50

为了演示，我们使用ImageNet dataset和PyTorch。两个网络都将训练5个epoch，看看参数数量和推理时间的变化。

1. VGG16

我们从训练VGG16 5个epoch开始(最终的准确性并不重要)：

参数的数量：

单个图像的初始推理时间为：

如果使用了batch normalization折叠，我们有：

以及：

8448个参数被去掉了，更好的是，几乎快了0.4毫秒！最重要的是，这是完全无损的，在性能方面绝对没有变化：

让我们看看它在Resnet50的情况下是怎么样的！

2. Resnet50

同样的，我们开始训练它5个epochs：

初始参数量为：

推理时间为：

使用batch normalization折叠后，有：

和：

现在，我们有26,560的参数被移除，更惊讶的hi，推理时间减少了1.5ms，性能一点也没降。

—END—

英文原文：https://towardsdatascience.com/speed-up-inference-with-batch-normalization-folding-8a45a83a89d8

请长按或扫描二维码关注本公众号

喜欢的话，请给我个在看吧！

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。