22Normalizaiton_layers

最新推荐文章于 2021-08-27 14:20:54 发布

G5Lorenzo

最新推荐文章于 2021-08-27 14:20:54 发布

阅读量203

点赞数

分类专栏： # Pytorch

本文链接：https://blog.csdn.net/qq_36825778/article/details/104208619

版权

本文探讨了深度学习中为何需要Normalization，详细介绍了Layer Normalization（LN）、Instance Normalization（IN）和Group Normalization（GN）的方法，包括各自的主要参数、应用场景及优缺点。通过对这些方法的理解，可以更好地优化模型训练过程。

摘要由CSDN通过智能技术生成

一、为什么要Normalization？

在这里插入图片描述
ICS问题：由于数据尺度/分布异常，导致训练困难

由上图中的D(H1)=n*D(x)*D(W)=1可知，第一个隐藏层的输出等于上一层的输入的方差和二者之间权重的方差的连乘，所以如果数据的方差发生微小变化，那么随着网络的加深，这个变化会越来越明显，从而导致梯度消失或梯度爆炸
所以数据尺度或分布发生变化，则会导致模型难以训练

进行Normalization就能控制和约束数据的尺度，使得数据在一个良好的尺度和分布范围内，从而有助于模型的训练

二、常见的Normalization方法

在这里插入图片描述

2.1 Layer Normalization（ LN）

在这里插入图片描述
说明：
因为BN是从特征数的维度出发，按照batch计算均值和方差，而在变长的网络中，如RNN，没有办法按照BN的计算方式来计算均值和方差
如上图中，不同的batch中的数据对应的特征数不同，所以没有办法按照batch计算均值和方差

2.1.1 nn.LayerNorm

nn.LayerNorm(normalized_shape,
			 eps=1e-05,
			 elementwise_affine=True)

主要参数：

normalized_shape：该层特征形状，
eps：分母修正项
elementwise_affine：是否需要affine transform

注意：
normalized_shape参数输入的特征形状要求是C*H*W，而特征图的shape是B*C*H*W，所以输入时要注意处理——feature_maps_bs.size()[1:]

# -*- coding: utf-8 -*-
import torch
import numpy as np
import torch.nn as nn
from tools.common_tools import set_seed


set_seed(1)  # 设置随机种子

# ======================================== nn.layer norm
flag = 1
# flag = 0
if flag:
    batch_size = 8
    num_features = 6

    features_shape = (3, 4)

    feature_map = torch.ones(features_shape)  # 2D
    feature_maps = torch.stack([feature_map * (i + 1) for i in range(num_features)], dim

最低0.47元/天解锁文章

G5Lorenzo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
22Normalizaiton_layers

一、为什么要Normalization？ICS问题：由于数据尺度/分布异常，导致训练困难由上图中的D(H1)=n*D(x)*D(W)=1可知，第一个隐藏层的输出等于上一层的输入的方差和二者之间权重的方差的连乘，所以如果数据的方差发生微小变化，那么随着网络的加深，这个变化会越来越明显，从而导致梯度消失或梯度爆炸所以数据尺度或分布发生变化，则会导致模型难以训练进行Normalization就...
复制链接

扫一扫

专栏目录