22Normalizaiton_layers

本文探讨了深度学习中为何需要Normalization,详细介绍了Layer Normalization(LN)、Instance Normalization(IN)和Group Normalization(GN)的方法,包括各自的主要参数、应用场景及优缺点。通过对这些方法的理解,可以更好地优化模型训练过程。
摘要由CSDN通过智能技术生成

一、为什么要Normalization?

在这里插入图片描述
ICS问题:由于数据尺度/分布异常,导致训练困难

由上图中的D(H1)=n*D(x)*D(W)=1可知,第一个隐藏层的输出等于上一层的输入的方差和二者之间权重的方差的连乘,所以如果数据的方差发生微小变化,那么随着网络的加深,这个变化会越来越明显,从而导致梯度消失或梯度爆炸
所以数据尺度或分布发生变化,则会导致模型难以训练

进行Normalization就能控制和约束数据的尺度,使得数据在一个良好的尺度和分布范围内,从而有助于模型的训练

二、常见的Normalization方法

在这里插入图片描述

2.1 Layer Normalization( LN)

在这里插入图片描述
说明:
因为BN是从特征数的维度出发,按照batch计算均值和方差,而在变长的网络中,如RNN,没有办法按照BN的计算方式来计算均值和方差
如上图中,不同的batch中的数据对应的特征数不同,所以没有办法按照batch计算均值和方差

2.1.1 nn.LayerNorm

nn.LayerNorm(normalized_shape,
			 eps=1e-05,
			 elementwise_affine=True)

主要参数:

  • normalized_shape:该层特征形状,
  • eps:分母修正项
  • elementwise_affine:是否需要affine transform

注意:
normalized_shape参数输入的特征形状要求是C*H*W,而特征图的shape是B*C*H*W,所以输入时要注意处理——feature_maps_bs.size()[1:]

# -*- coding: utf-8 -*-
import torch
import numpy as np
import torch.nn as nn
from tools.common_tools import set_seed


set_seed(1)  # 设置随机种子

# ======================================== nn.layer norm
flag = 1
# flag = 0
if flag:
    batch_size = 8
    num_features = 6

    features_shape = (3, 4)

    feature_map = torch.ones(features_shape)  # 2D
    feature_maps = torch.stack([feature_map * (i + 1) for i in range(num_features)], dim
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值