批量归一化

最新推荐文章于 2023-05-08 22:09:57 发布

纵浪大化中，喜，惧

最新推荐文章于 2023-05-08 22:09:57 发布

阅读量139

点赞数

分类专栏：机器学习课程笔记文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.csdn.net/beyondzty/article/details/127421274

版权

机器学习课程笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在这里插入图片描述

在这里插入图片描述

全连接层:BatchNorm1d
卷积层:BatchNorm2d(batch,C,H,W)->(1,C,1,1)(每个卷积层1个均值,一个方差)

import torch
from torch import nn
from d2l import torch as d2l


def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):
    # 通过is_grad_enabled来判断当前模式是训练模式还是预测模式
    if not torch.is_grad_enabled():
        # 如果是在预测模式下，直接使用传入的移动平均所得的均值和方差
        X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps)
    else:
        assert len(X.shape) in (2, 4)
        if len(X.shape) == 2:
            # 使用全连接层的情况，计算特征维上的均值和方差
            mean = X.mean(dim=0)
            var = ((X - mean) ** 2).mean(dim=0)
        else:
            # 使用二维卷积层的情况，计算通道维上（axis=1）的均值和方差。
            # 这里我们需要保持X的形状以便后面可以做广播运算
            mean = X.mean(dim=(0, 2, 3), keepdim=True)
            var = ((X - mean) ** 2).mean(dim=(0, 2, 3), keepdim=True)
        # 训练模式下，用当前的均值和方差做标准化
        X_hat = (X - mean) / torch.sqrt(var + eps)
        # 更新移动平均的均值和方差
        moving_mean = momentum * moving_mean + (1.0 - momentum) * mean
        moving_var = momentum * moving_var + (1.0 - momentum) * var
    Y = gamma * X_hat + beta  # 缩放和移位
    return Y, moving_mean.data, moving_var.data```