《动手学深度学习》-学习笔记-5.1. 二维卷积层

最新推荐文章于 2022-12-13 10:00:55 发布

机器视觉-zjuer

最新推荐文章于 2022-12-13 10:00:55 发布

阅读量1.6k

点赞数 1

文章标签：动手学深度学习

本文链接：https://blog.csdn.net/u014410989/article/details/89175483

版权

《动手学深度学习》-学习笔记-5.1. 二维卷积层

课后练习1

问题：
构造一个输入图像X，令它有水平方向的边缘。如何设计卷积核K来检测图像中水平边缘？如果是对角方向的边缘呢？
解答：
这篇博文介绍了很多边缘检测卷积核：https://blog.csdn.net/zlsjsj/article/details/80057312
可以分别采用如下卷积核检测水平方向边缘和对角方向边缘：
在这里插入图片描述
下面是二维卷积核的训练代码。

from mxnet import autograd, nd
from mxnet.gluon import nn
from mxnet.gluon import loss as gloss

def corr2d(X, K):  # 本函数已保存在d2lzh包中方便以后使用
    h, w = K.shape
    Y = nd.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i: i + h, j: j + w] * K).sum()
    return Y

X = nd.ones((6, 8))
X[:, 2:6] = 0
print('X :')
print(X)

K = nd.array([[1, -1] ,[1, -1]])
print('K :')
print(K)

Y = corr2d(X, K)
print('Y :')
print(Y)

# 二维卷积层使用4维输入输出，格式为(样本, 通道, 高, 宽)，这里批量大小（批量中的样本数）和通
# 道数均为1
X = X.reshape((1, 1, 6, 8))
Y = Y.reshape((1, 1, 5, 7))

# 构造一个输出通道数为1（将在“多输入通道和多输出通道”一节介绍通道），核数组形状是(2, 2)的二
# 维卷积层
conv2d = nn.Conv2D(1, kernel_size=K.shape)
conv2d.initialize()
Y_hat = conv2d(X)

loss = gloss.L2Loss()

for i in range(20):

    with autograd.record():
        Y_hat = conv2d(X)
        # 使用这个loss就可以正常计算梯度
        l = loss(conv2d(X),  Y)
        # l = (Y_hat - Y) ** 2 #使用这个损失函数的话，梯度求解有问题，使得越训练loss越大。原因待定位。
        
    l.backward()
    print('当前损失')
    print(l)
    print('更新之前的weight ')
    print(conv2d.weight.data())
    print('weight的梯度')
    print(conv2d.weight.grad())
    
    # 简单起见，这里仅对weight求导，偏差保持为0。
    conv2d.weight.data()[:] -= 3e-1 * conv2d.weight.grad()
    
    print('batch %d, loss %.3f' % (i + 1, l_mse.sum().asscalar()))

课后练习2

问题：
试着对我们自己构造的Conv2D类进行自动求梯度，会有什么样的错误信息？在该类的forward函数里，将corr2d函数替换成nd.Convolution类使得自动求梯度变得可行。
解答：
虽然我们之前构造了Conv2D类，但由于corr2d使用了对单个元素赋值（[i, j]=）的操作因而无法自动求梯度。

课后练习3

问题：
如何通过变化输入和核数组将互相关运算表示成一个矩阵乘法？
解答：
（1）参考知乎上的解释：卷积计算为什么要转成矩阵乘法？
为了加速运算啊，传统的卷积核依次滑动的计算方法很难加速。转化为矩阵乘法之后，就可以调用各种线性代数运算库，CUDA里面的矩阵乘法实现。这些矩阵乘法都是极限优化过的，比暴力计算快很多倍。
转载自：https://www.zhihu.com/question/263430019
（2）卷积运算转换为矩阵乘法的流程
通过一个例子来讲解一下，怎么把卷积运算转换为矩阵乘法运算。
转载自：https://blog.csdn.net/lingerlanlan/article/details/23863347

课后练习4

问题：如何构造一个全连接层来进行物体边缘检测？
解答：为什么要使用全连接层呢？是为了和卷积层对比，体现卷积层参数个数少的优势吧？

在这里插入图片描述

from mxnet import autograd, nd
from mxnet.gluon import nn
from mxnet.gluon import loss as gloss

def corr2d(X, K):  # 本函数已保存在d2lzh包中方便以后使用
    h, w = K.shape
    Y = nd.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i: i + h, j: j + w] * K).sum()
    return Y

X = nd.ones((6, 8))
X[:, 2:6] = 0


K = nd.array([[1, 1], [-1, -1]])
# K = nd.array([[1, -1]])
print('K :',K)

Y = corr2d(X, K)


# 二维卷积层使用4维输入输出，格式为(样本, 通道, 高, 宽)，这里批量大小（批量中的样本数）和通
# 道数均为1
X = X.reshape((1, 1, X.shape[0], X.shape[1]))
Y = Y.reshape((1, 1, Y.shape[0], Y.shape[1]))

# 构造一个输出通道数为1（将在“多输入通道和多输出通道”一节介绍通道），核数组形状是(2, 2)的二
# 维卷积层
conv2d = nn.Conv2D(1, kernel_size=K.shape)
conv2d.initialize()
Y_hat = conv2d(X)

loss = gloss.L2Loss()
for i in range(8):
    with autograd.record():
        Y_hat = conv2d(X)
        #l = loss(conv2d(X),  Y)
        # l = (Y_hat - Y) ** 2
        # 可以采用如下方式计算loss：
        temp = (Y_hat - Y) ** 2 
        l = 0.5*nd.sqrt(nd.mean(temp, axis=0, exclude=True))
        
    l.backward()
    # 简单起见，这里忽略了偏差
    conv2d.weight.data()[:] -= 3e-2 * conv2d.weight.grad()    
    print('batch %d, loss %.3f' % (i + 1, l.sum().asscalar()))
    if i == 0:
        print('loss ',l)
        print('conv2d.weight.grad',conv2d.weight.grad())
print('conv2d.weight.data()',conv2d.weight.data())