pytorch的归一化层

最新推荐文章于 2024-10-07 15:40:18 发布

Rareay

最新推荐文章于 2024-10-07 15:40:18 发布

阅读量1.6k

点赞数 3

分类专栏： # DL 文章标签：深度学习

本文链接：https://blog.csdn.net/qq_33236581/article/details/124016573

版权

19 篇文章 0 订阅

订阅专栏

归一化公式：
$y=\frac{x-E[x]}{\sqrt{Var[x]+\epsilon}}*\gamma + \beta$

其中：

本文介绍的 4 种归一化主要是针对的维度不同，例如 BatchNorm 是对所有 banch 的单个通道归一化，每个通道的归一化独立，而 GroupNorm 是一个 banch 下的通道分组归一化，不受 banch size 的影响，如下图：

请添加图片描述

BN 是对所有 banch 的单个通道做归一化，每个通道都分别做一次。

# 这里只示例 2d 的，针对常用的卷积维度
torch.nn.BatchNorm2d(num_features, eps=1e-5, momentum=0.1,\
                     affine=True, track_running_stats=True)

成员变量：

num_features：通道数。
eps：常数 $\epsilon$ 。
momentum：动量参数，用来控制 running_mean 和 running_var 的更新，更新方法： $M_{new}=(1-m)*M_{old}+m*mean$ ，其中， $M_{new}$ 是最新的 running_mean， $M_{old}$ 是上一次的 running_mean， $m e a n$ 是当前批数据的均值。
affine：仿射变换的开关
- 如果 affine=False，则 $\gamma=1$ 、 $\beta=0$ ，且不能学习；（对应weight、bias变量）
- 如果 affine=True，则 $\gamma$ 、 $\beta$ 可以学习；
training：训练状态或测试状态，两种状态下运行逻辑不通。
track_running_stats：如果为 True，则统计跟踪 batch 的个数，记录在 num_batches_tracked 中。
num_btaches_tracked：跟踪 batch 的个数。

trainning 和 tracking_running_stats 有 4 种组合：

trainning	tracking_running_stats	说明
True	True	正常的训练过程，跟踪整个训练过程的 banch 特性
True	False	不跟踪训练过程的 banch 特性，只计算当前的 banch 统计特性
False	True	使用之前训练好的 running_mean、running_var，且不会更新
False	False	（一般不采用）只计算当前特征

更新过程：

torch.nn.GroupNorm(num_groups, num_channels, eps=1e-5, affine=True)

torch.nn.InstanceNorm2d(num_features, eps=1e-5, momentum=0.1, affine=False, track_running_stats=False)

torch.nn.LayerNorm(normalized_shape, eps=1e-5, elementwise_affine=True)

参考上面的原理图，LayerNorm 是对一个 banch 的所有通道做归一化，如果输入的 tensor 维度为 $[4, 6, 3, 3]$ ，那么函数的传参 normalized_shape 就是 $[6, 3, 3]$ 。

关注

专栏目录