深度学习笔记-VGG(池化)

目录

VGG

AlexNet在LeNet的基础上增加了3个卷积层

更大更深的AlexNet(重复的VGG块)

使用可重复使用的卷积块来构建深度卷积神经网络

不同的卷积块个数和超参数可以得到不同复杂度的变种

连续使用数个相同的填充为1、窗口形状为3×33×3的卷积层
后接上一个步幅为2、窗口形状为2×22×2的最大池化层。卷积层保持输入的高和宽不变,而池化层则对其减半。

对于给定的感受野(与输出有关的输入图片的局部大小),采用堆积的小卷积核优于采用大的卷积核,因为可以增加网络深度来保证学习更复杂的模式,而且代价还比较小(参数更少)。例如,在VGG中,使用了3个3x3卷积核来代替7x7卷积核,使用了2个3x3卷积核来代替5*5卷积核,这样做的主要目的是在保证具有相同感知野的条件下,提升了网络的深度,在一定程度上提升了神经网络的效果。

使用vgg_block函数来实现这个基础的VGG块,它可以指定卷积层的数量和输入输出通道数。

VGG块

import time
import torch
from torch import nn, optim

import sys
sys.path.append("..") 
import dl_pytorch as d2l
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

def vgg_block(num_convs, in_channels, out_channels):
    blk = []
    for i in range(num_convs):
        if i == 0:
            blk.append(nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1))
        else:
            blk.append(nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1))
        blk.append(nn.ReLU())
    blk.append(nn.MaxPool2d(kernel_size=2, stride=2)) # 这里会使宽高减半
    return nn.Sequential(*blk)

VGG网络
VGG网络由卷积层模块后接全连接层模块构成。卷积层模块串联数个vgg_block,其超参数由变量conv_arch定义。该变量指定了每个VGG块里卷积层个数和输入输出通道数。全连接模块则跟AlexNet中的一样。

conv_arch = ((1, 1, 64), (1, 64, 128), (2, 128, 256), (2, 256, 512), (2, 512, 512))
# 经过5个vgg_block, 宽高会减半5次, 变成 224/32 = 7
fc_features = 512 * 7 * 7 # c * w * h
fc_hidden_units = 4096 # 任意

这是5个卷积块,前2块使用单卷积层,而后3块使用双卷积层。第一块的输入输出通道分别是1(下面使用的Fashion-MNIST数据的通道数为1)和64,之后每次对输出通道数翻倍,直到变为512。因为这个网络使用了8个卷积层和3个全连接层,所以经常被称为VGG-11。

实现VGG-11:

def vgg(conv_arch, fc_features, fc_hidden_units=4096):
    net = nn.Sequential()
    # 卷积层部分
    for i, (num_convs, in_channels, out_channels) in enumerate(conv_arch):
        # 每经过一个vgg_block都会使宽高减半
        net.add_module("vgg_block_" + str(i+1), vgg_block(num_convs, in_channels, out_channels))
    # 全连接层部分
    net.add_module("fc", nn.Sequential(d2l.FlattenLayer(),
                                 nn.Linear(fc_features, fc_hidden_units),
                                 nn.ReLU(),
                                 nn.Dropout(0.5),
                                 nn.Linear(fc_hidden_units, fc_hidden_units),
                                 nn.ReLU(),
                                 nn.Dropout(0.5),
                                 nn.Linear(fc_hidden_units, 10)
                                ))
    return net

构造一个高和宽均为224的单通道数据样本来观察每一层的输出形状。

net = vgg(conv_arch, fc_features, fc_hidden_units)
X = torch.rand(1, 1, 224, 224)

# named_children获取一级子模块及其名字(named_modules会返回所有子模块,包括子模块的子模块)
for name, blk in net.named_children(): 
    X = blk(X)
    print(name, 'output shape: ', X.shape)

在这里插入图片描述
每次将输入的高和宽减半,直到最终高和宽变成7后传入全连接层。与此同时,输出通道数每次翻倍,直到变成512。因为每个卷积层的窗口大小一样,所以每层的模型参数尺寸和计算复杂度与输入高、输入宽、输入通道数和输出通道数的乘积成正比。VGG这种高和宽减半以及通道翻倍的设计使得多数卷积层都有相同的模型参数尺寸和计算复杂度。

获取数据和训练模型
因为VGG-11计算上比AlexNet更加复杂,出于测试的目的构造一个通道数更小,或者说更窄的网络在Fashion-MNIST数据集上进行训练。

 ratio = 8
small_conv_arch = [(1, 1, 64//ratio), (1, 64//ratio, 128//ratio), (2, 128//ratio, 256//ratio), 
                   (2, 256//ratio, 512//ratio), (2, 512//ratio, 512//ratio)]
net = vgg(small_conv_arch, fc_features // ratio, fc_hidden_units // ratio)
print(net)

在这里插入图片描述
模型训练:

batch_size = 64
# 如出现“out of memory”的报错信息,可减小batch_size或resize
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)

lr, num_epochs = 0.001, 5
optimizer = torch.optim.Adam(net.parameters(), lr=lr)
d2l.train_ch5(net, train_iter, test_iter, batch_size, optimizer, device, num_epochs)

池化层

直接计算池化窗口内元素的最大值或者平均值。该运算也分别叫做最大池化或平均池化。在二维最大池化中,池化窗口从输入数组的最左上方开始,按从左往右、从上往下的顺序,依次在输入数组上滑动。当池化窗口滑动到某一位置时,窗口中的输入子数组的最大值即输出数组中相应位置的元素。

例:最大池化层:在这里插入图片描述
注:
(1)池化层一般位与卷积层之后,会缓解卷积层位置的敏感性,与卷积层一样有窗口大小,填充和步幅作为超参数。
(2)没有输出通道数的超参数。
(3)在多输入通道时,在每一个输入通道应用池化层以获得相应的输出通道
(4)输出通道数=输出通道数
(5)没有可学习的参数

代码实现:

import torch
from torch import nn

def pool2d(X, pool_size, mode='max'):
    X = X.float()
    p_h, p_w = pool_size
    Y = torch.zeros(X.shape[0] - p_h + 1, X.shape[1] - p_w + 1)
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            if mode == 'max':
                Y[i, j] = X[i: i + p_h, j: j + p_w].max()
            elif mode == 'avg':
                Y[i, j] = X[i: i + p_h, j: j + p_w].mean()       
    return Y

关注公众号:Time木
一起学习交流

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: "opencv-boostdesc-vgg.rar"是一个文件的名称,其中包含了使用OpenCV和BoostDesc算法实现的VGG特征描述符的相关内容。OpenCV是一个开源的计算机视觉库,提供了许多用于图像和视频处理的功能和工具。BoostDesc是OpenCV中的一个特征描述算法,用于描述图像中的关键点。 VGG特征描述符是基于深度学习的特征提取方法之一,具有良好的特征表达能力和稳定性。它通过将图像输入预训练好的VGG网络中,提取最后一层全连接层的输出作为特征向量。这样得到的特征向量能够较好地描述图像中的物体和纹理信息。 "opencv-boostdesc-vgg.rar"文件中可能包含了使用BoostDesc算法结合VGG特征描述符的源代码、训练好的VGG网络模型、以及其他相关的资源文件。通过使用这些资源,我们可以使用OpenCV库中提供的接口来提取图像中的关键点,并将其转化为对应的VGG特征向量。 通过使用这个文件,我们可以进行图像特征提取和匹配等计算机视觉任务。对于图像识别、目标跟踪、图像检索等应用,使用VGG特征描述符可以提取到更具有表达力的特征,提高算法的准确性和鲁棒性。 总之,"opencv-boostdesc-vgg.rar"文件提供了一种使用OpenCV库和BoostDesc算法实现VGG特征描述符的方式,可以用于图像处理与计算机视觉的相关任务。 ### 回答2: opencv-boostdesc-vgg.rar是一个压缩文件,其中包含了使用OpenCV库实现的一种特征描述算法,具体是基于BoostDesc和VGGNet的方法。 特征描述算法是计算机视觉领域中非常重要的一个研究方向,它的目标是从图像中提取出具有代表性和区分度的特征点描述子。这些描述子能够用于在不同图像间进行匹配、检索、物体识别等任务。 BoostDesc是一种基于AdaBoost算法的特征描述方法,它能够在提取特征时考虑到图像的梯度方向信息,从而提高了特征描述子的区分度。 VGGNet是一种深度卷积神经网络,它由牛津大学的Visual Geometry Group开发,被用于大规模图像识别任务。将VGGNet应用于特征描述中,可以利用其强大的图像特征提取能力,生成更具有代表性的特征描述子。 所以,opencv-boostdesc-vgg.rar文件中可能包含了实现利用BoostDesc和VGGNet算法进行图像特征描述的相关源代码、模型文件或测试数据等内容。这些资源可以帮助开发者更方便地使用OpenCV库实现基于该算法的图像特征描述任务。 ### 回答3: opencv-boostdesc-vgg是OpenCV库中的一个特征描述符模块,使用了VGG Net的Boosted实现。该模块用于计算图像中关键点的特征描述符,可用于图像识别、目标检测和图像匹配等任务。 Boosted特征描述符是一种计算图像关键点描述符的方法,它结合了多尺度特征和多核学习器的优势。通过使用Boosting算法和多个权重核函数,能够有效提取图像中的局部特征并进行描述。 VGG Net是一种深度卷积神经网络模型,由牛津大学视觉几何组(Visual Geometry Group)提出。它以配置较深的卷积层和全连接层,能够在图像分类和物体识别任务中取得良好的性能。 通过结合Boosted特征描述符和VGG Net模型,opencv-boostdesc-vgg能够在计算特征描述符时获得更准确和具有较高判别能力的结果。该模块提供了多种参数和选项,可以根据应用需求进行灵活的配置和调整。 总之,opencv-boostdesc-vgg是OpenCV中的一个特征描述符模块,使用VGG Net的Boosted实现。它可以用于计算图像关键点的描述符,适用于多种计算机视觉任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Time木

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值