动手学深度学习07：从全连接层到卷积

最新推荐文章于 2023-11-07 09:46:59 发布

NUAA_Peter

最新推荐文章于 2023-11-07 09:46:59 发布

阅读量175

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉 cnn

本文链接：https://blog.csdn.net/peterwanye/article/details/128536471

版权

深度学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

动手学深度学习07：从全连接层到卷积

卷积

到目前为止，我们处理这类结构丰富的数据的方式还不够有效。我们仅仅通过将图像数据展平成一维向量而忽略了每个图像的空间结构信息，再将数据送入一个全连接的多层感知机中

卷积神经网络（convolutional neural network，CNN）是一类强大的、为处理图像数据而设计的神经网络。

多层感知机十分适合处理表格数据，其中行对应样本，列对应特征。

全连接层的参数量大，训练代价大。

设计适合于计算机视觉的神经网络架构

平移不变性（translation invariance）：不管检测对象出现在图像中的哪个位置，神经网络的前面几层应该对相同的图像区域具有相似的反应，即为“平移不变性”。
局部性（locality）：神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远区域的关系，这就是“局部性”原则。最终，可以聚合这些局部特征，以在整个图像级别进行预测。

小结

图像的平移不变性使我们以相同的方式处理局部图像，而不在乎它的位置。
局部性意味着计算相应的隐藏表示只需一小部分局部图像像素。
在图像处理中，卷积层通常比全连接层需要更少的参数，但依旧获得高效用的模型。
卷积神经网络（CNN）是一类特殊的神经网络，它可以包含多个卷积层。
多个输入和输出通道使模型在每个空间位置可以获取图像的多方面特征。

图像卷积

卷积运算

输出大小等于输入大小 $n_h \times n_w$ 减去卷积核大小 $k_h \times k_w$ ，即：
$(n_h-k_h+1) \times (n_w-k_w+1)$

import torch
from torch import nn
from d2l import torch as d2l

def corr2d(X, K):  #@save
    """计算二维卷积运算"""
    h, w = K.shape
    Y = torch.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1)) # 输出大小
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
    return Y

X = torch.tensor([[0.0, 1.0, 2.0], [3.0, 4.0, 5.0], [6.0, 7.0, 8.0]])
K = torch.tensor([[0.0, 1.0], [2.0, 3.0]])
print(corr2d(X, K))

卷积层

class Conv2D(nn.Module):
    def __init__(self, kernel_size):
        super().__init__()
        # 参数初始化
        self.weight = nn.Parameter(torch.rand(kernel_size))
        self.bias = nn.Parameter(torch.zeros(1))
    # 前向传播
    def forward(self, x):
        return corr2d(x, self.weight) + self.bias

一个简单应用：检测目标的边缘

检测图像中不同颜色的边缘

X = torch.ones((6, 8))
X[:, 2:6] = 0
print(X)
K = torch.tensor([[1.0, -1.0]])
Y = corr2d(X, K)
Y

上面这个kernal只能检测垂直边缘，无法检测水平边缘

学习卷积核

学习由X生成Y的卷积核

# 构造一个二维卷积层，它具有1个输出通道和形状为（1，2）的卷积核
conv2d = nn.Conv2d(1,1, kernel_size=(1, 2), bias=False)

# 这个二维卷积层使用四维输入和输出格式（批量大小、通道、高度、宽度），
# 其中批量大小和通道数都为1
X = X.reshape((1, 1, 6, 8))
Y = Y.reshape((1, 1, 6, 7))
lr = 3e-2  # 学习率

for i in range(10):
    Y_hat = conv2d(X)
    l = (Y_hat - Y) ** 2
    conv2d.zero_grad()
    l.sum().backward()
    # 迭代卷积核
    conv2d.weight.data[:] -= lr * conv2d.weight.grad
    if (i + 1) % 2 == 0:
        print(f'epoch {i+1}, loss {l.sum():.3f}')
        
print(conv2d.weight.data.reshape((1, 2)))