一文理解深度学习框架中的InstanceNorm

OneFlow深度学习框架

已于 2022-03-09 10:59:04 修改

阅读量6.9k

点赞数 3

分类专栏：前沿技术文章标签：深度学习 python 机器学习人工智能算法

于 2022-03-04 11:39:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OneFlow_Official/article/details/123288435

版权

本文详细探讨InstanceNorm与BatchNorm的关系，通过梯度推导过程解析InstanceNorm的计算原理，并提供了PyTorch和MXNet框架的实现代码分析，以及numpy实现示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

撰文｜梁德澎

本文首发于公众号GiantPandaCV

本文主要推导 InstanceNorm 关于输入和参数的梯度公式，同时还会结合 PyTorch 和 MXNet 里的 InstanceNorm 代码来分析。

1

InstanceNorm 与 BatchNorm 的联系

对一个形状为 (N, C, H, W) 的张量应用 InstanceNorm[4] 操作，其实等价于先把该张量 reshape 为 (1, N * C, H, W)的张量，然后应用 BatchNorm[5] 操作。而 gamma 和 beta 参数的每个通道所对应输入张量的位置都是一致的。

而 InstanceNorm 与 BatchNorm 不同的地方在于：

InstanceNorm 训练与预测阶段行为一致，都是利用当前 batch 的均值和方差计算
BatchNorm 训练阶段利用当前 batch 的均值和方差，测试阶段则利用训练阶段通过移动平均统计的均值和方差

论文[6]中的一张示意图，就很好地解释了两者的联系：

https://arxiv.org/pdf/1803.08494.pdf

所以 InstanceNorm 对于输入梯度和参数求导过程与 BatchNorm 类似，下面开始进入正题。

2

梯度推导过程详解

在开始推导梯度公式之前，首先约定输入，参数，输出等符号：

输入张量，形状为(N, C, H, W)，rehape 为 (1, N * C, M) 其中 M=H*W
参数，形状为 (1, C, 1, 1)，每个通道值对应 N*M 个输入，在计算的时候首先通过在第0维 repeat N 次再 reshape 成 (1, N*C, 1, 1)
参数，形状为 (1, C, 1, 1)，每个通道值对应 N*M 个输入，在计算的时候首先通过在第0维 repeat N 次再 reshape 成 (1, N*C, 1, 1)

而输入张量 reshape 成 (1, N * C, M)之后，每个通道上是一个长度为 M 的向量，这些向量之间的计算是不像干的，每个向量计算自己的 normalize 结果。所以求导也是各自独立。因此下面的均值、方差符号约定和求导也只关注于其中一个向量，其他通道上的向量计算都是一样的。

一个向量上的均值
一个向量上的方差
一个向量上一个点的 normalize 中间输出
一个向量上一个点的 normalize 最终输出，其中和表示这个向量所对应的 gamma 和 beta 参数的通道值。
loss 函数的符号约定为

gamma 和 beta 参数梯度的推导

先计算简单的部分，求 loss 对和的偏导：

其中表示 gamma 和 beta 参数的第个通道参与了哪些 batch 上向量的 normalize 计算。

因为 gamma 和 beta 上的每个通道的参数都参与了 N 个 batch 上 M 个元素 normalize 的计算，所以对每个通道进行求导的时候，需要把所有涉及到的位置的梯度都累加在一起。

对于在具体实现的时候，就是对应输出梯度的值，也就是从上一层回传回来的梯度值。

输入梯度的推导

对输入梯度的求导是最复杂的，下面的推导都是求 loss 相对于输入张量上的一个点上的梯度，而因为上文已知，每个长度是 M 的向量的计算都是独立的，所以下文也是描述其中一个向量上一个点的梯度公式。具体是计算的时候，是通过向量操作（比如 numpy）来完成所有点的梯度计算。

先看 loss 函数对于的求导：

而从上文约定的公式可知，对于

402 Payment Required

的计算中涉及到的有三部分，分别是、和。所以 loss 对于的偏导可以写成以下的形式：

接下来就是，分别求上面式子最后三项的梯度公式。

第一项梯度推导

在求第一项的时候，把和看做常量，则有：

最低0.47元/天解锁文章

OneFlow深度学习框架

博客等级

码龄4年

企业官方账号

382
原创

2876
点赞

4172
收藏

5852
粉丝

关注

私信

热门文章

分类专栏

最新评论

用初中数学理解LLM工作原理
Dongwoo Jeong: 我对中国的初中生感到威胁，因为我拥有韩国的“物理学硕士”学位。这很容易理解。不过，我想总结一下这篇文章的一些小遗憾：在开始之前，如果有一个关于LLM组件的简单概述，会更容易理解。对于初学者来说，应该先有概述再介绍，但一开始就直接介绍，让我很难知道自己正在学习LLM的哪一部分。 1. 归一化位置（Norm）在神经网络训练中，归一化用于提高稳定性和性能。 GPT主要使用预归一化结构（在激活函数之前应用归一化）。归一化分为后向和前向归一化。 2. 激活函数（Activation Function）激活函数为神经网络引入非线性，帮助学习模式（ReLU是典型代表）。 GPT使用GELU，它比ReLU具有更平滑的过渡模式。 3. 位置编码（Positional Encoding） Transformer模型与循环神经网络（RNN）不同，无法直接处理顺序信息，因此通过位置编码传递位置信息。 GPT最近使用RoPE（旋转位置编码）作为相对位置编码。 4. 注意力机制（Attention Mechanism）注意力机制从输入文本中提取重要部分的信息。 GPT使用带有因果掩码的自注意力机制（Causal Masking）。 5. 混合专家模型（MoE）混合专家模型通过创建多个“专家”抽象层，输入令牌由路由网络选择并传递给特定层。主流架构包括：仅编码器（Encoder-only，如BERT）仅解码器（Decoder-only，如GPT系列）编码器-解码器（Encoder-Decoder，如T5）如果有这样的概述就更好了。非常感谢您用非常易懂的方式解释了原理。
用初中数学理解LLM工作原理
云淡风轻2.0: 这文章就是用ai写的，你能看懂才怪了
用初中数学理解LLM工作原理
西格玛man: 为什么我看不懂中文，作者能再润色一下语言吗，太复杂了
Cerebras：挑战英伟达，全球最快AI推理芯片的“魔法”
uttyuiuoi: 一个实验产品和人家量产的对比
开源AI背后的商业密码
深圳王哥: 这篇文章真是干货满满，作者对技术细节的把握和解析非常到位，让我对这个主题有了更深入的理解。期待作者能分享更多这样的高质量内容！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。