文章目录
简介
残差网络的核心思想是:每个附加层都应该更容易地包含原始函数作为其元素之一。 于是,残差块(residual blocks)便诞生了,这个设计对如何建立深层神经网络产生了深远的影响。
即随着网络层数的增加,网络的性能反而不再提升,甚至下降。残差块通过引入“残差学习”(residual learning)来缓解这一问题,使得网络能够更容易地学习到深层特征。
残差块的输入不仅传递到卷积层等操作中,还通过一个跳跃连接(也称为快捷连接)直接传递到后面的层。这个跳跃连接可以是恒等连接(identity connection),也可以是经过一些卷积层或其他操作的连接。
卷积层的输出与输入通过跳跃连接进行逐元素相加(element-wise addition)。这样做的目的是将输入中的信息保留下来,并与学习到的残差特征相结合。
残差块的原理可以通过以下公式表示:
输出=激活函数(卷积层1(输入))+激活函数(卷积层2(输入))
残差块
案例:
import torch
import torch.nn as nn
class ResidualBlock(nn.Module):
def __init__(self, in_channels, out_channels, stride=1, downsample=None):
super(ResidualBlock, self).__init__()
self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)
self.bn1 = nn.BatchNorm2d(out_channels)
self.relu = nn.ReLU(inplace=True)
self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)
self.bn2 = nn.BatchNorm2d(out_channels)
self.downsample = downsample
def forward(self, x):
residual = x
out = self.conv1(x)
out = self.bn1(out)
out = self.relu(out)
out = self.conv2(out)
out = self.bn2(out)
if self.downsample:
residual = self.downsample(x)
out += residual
out = self.relu(out)
return out
# 假设我们有一个输入张量,大小为(1, 64, 56, 56)
# 这里假设输入是一个来自前面层的特征图
input_tensor = torch.randn(1, 64, 56, 56)
# 创建一个残差块实例,其中输入和输出通道数都是64
residual_block = ResidualBlock(in_channels=64, out_channels=64)
# 通过残差块传递输入,查看输出
output = residual_block(input_tensor)
print(output.shape) # 应该输出: torch.Size([1, 64, 56, 56])
经典ResNet-18
import torch
import torch.nn as nn
from torch.nn import functional as F
class Residual(nn.Module):
'''
这是一个残差块的实现,它是ResNet的基本构建单元。
input_channels:输入特征图的通道数。
num_channels:残差块内部使用的通道数。
use_1x1conv:是否使用1x1卷积来调整输入特征图的通道数。
strides:卷积层的步长,用于在第一个残差块中改变特征图的尺寸。
'''
def __init__(self, input_channels, num_channels,
use_1x1conv=False, strides=1):
super().__init__()
# self.conv1 和 self.conv2:两个3x3的卷积层,用于提取特征和学习残差。
self.conv1 = nn.Conv2d(input_channels, num_channels,
kernel_size=3, padding=1, stride=strides)
self.conv2 = nn.Conv2d(num_channels, num_channels,
kernel_size=3, padding=1)
if use_1x1conv:
# self.conv3:一个可选的1x1卷积层,用于在第一个残差块中调整通道数和尺寸。
self.conv3 = nn.Conv2d(input_channels, num_channels,
kernel_size=1, stride=strides)
else:
self.conv3 = None
# self.bn1 和 self.bn2:两个批归一化层,用于规范化卷积层的输出。
self.bn1 = nn.BatchNorm2d(num_channels)
self.bn2 = nn.BatchNorm2d(num_channels)
# forward 方法定义了残差块的前向传播过程,包括卷积、批归一化、激活函数和跳跃连接的加和。
def forward(self, X):
Y = F.relu(self.bn1(self.conv1(X)))
Y = self.bn2(self.conv2(Y))
if self.conv3:
X = self.conv3(X)
Y += X
return F.relu(Y)
def resnet_block(input_channels, num_channels, num_residuals,
first_block=False):
'''
这个函数用于创建多个残差块的序列。
input_channels 和 num_channels:输入和输出特征图的通道数。
num_residuals:残差块的数量。
first_block:是否为第一个残差块,如果是,将使用1x1卷积和步长为2的卷积来改变特征图的尺寸。
'''
blk = []
for i in range(num_residuals):
if i == 0 and not first_block:
blk.append(Residual(input_channels, num_channels,
use_1x1conv=True, strides=2))
else:
blk.append(Residual(num_channels, num_channels))
return blk
# 构建 ResNet 网络
b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
nn.BatchNorm2d(64), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))
b2 = nn.Sequential(*resnet_block(64, 64, 2, first_block=True))
b3 = nn.Sequential(*resnet_block(64, 128, 2))
b4 = nn.Sequential(*resnet_block(128, 256, 2))
b5 = nn.Sequential(*resnet_block(256, 512, 2))
net = nn.Sequential(b1, b2, b3, b4, b5,
nn.AdaptiveAvgPool2d((1,1)),
nn.Flatten(), nn.Linear(512, 10))
print(net)