《动手学深度学习》-学习笔记-5.1. 二维卷积层
课后练习1
问题:
构造一个输入图像X,令它有水平方向的边缘。如何设计卷积核K来检测图像中水平边缘?如果是对角方向的边缘呢?
解答:
这篇博文介绍了很多边缘检测卷积核:https://blog.csdn.net/zlsjsj/article/details/80057312
可以分别采用如下卷积核检测水平方向边缘和对角方向边缘:
下面是二维卷积核的训练代码。
from mxnet import autograd, nd
from mxnet.gluon import nn
from mxnet.gluon import loss as gloss
def corr2d(X, K): # 本函数已保存在d2lzh包中方便以后使用
h, w = K.shape
Y = nd.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
for i in range(Y.shape[0]):
for j in range(Y.shape[1]):
Y[i, j] = (X[i: i + h, j: j + w] * K).sum()
return Y
X = nd.ones((6, 8))
X[:, 2:6] = 0
print('X :')
print(X)
K = nd.array([[1, -1] ,[1, -1]])
print('K :')
print(K)
Y = corr2d(X, K)
print('Y :')
print(Y)
# 二维卷积层使用4维输入输出,格式为(样本, 通道, 高, 宽),这里批量大小(批量中的样本数)和通
# 道数均为1
X = X.reshape((1, 1, 6, 8))
Y = Y.reshape((1, 1, 5, 7))
# 构造一个输出通道数为1(将在“多输入通道和多输出通道”一节介绍通道),核数组形状是(2, 2)的二
# 维卷积层
conv2d = nn.Conv2D(1, kernel_size=K.shape)
conv2d.initialize()
Y_hat = conv2d(X)
loss = gloss.L2Loss()
for i in range(20):
with autograd.record():
Y_hat = conv2d(X)
# 使用这个loss就可以正常计算梯度
l = loss(conv2d(X), Y)
# l = (Y_hat - Y) ** 2 #使用这个损失函数的话,梯度求解有问题,使得越训练loss越大。原因待定位。
l.backward()
print('当前损失')
print(l)
print('更新之前的weight ')
print(conv2d.weight.data())
print('weight的梯度')
print(conv2d.weight.grad())
# 简单起见,这里仅对weight求导,偏差保持为0。
conv2d.weight.data()[:] -= 3e-1 * conv2d.weight.grad()
print('batch %d, loss %.3f' % (i + 1, l_mse.sum().asscalar()))
课后练习2
问题:
试着对我们自己构造的Conv2D类进行自动求梯度,会有什么样的错误信息?在该类的forward函数里,将corr2d函数替换成nd.Convolution类使得自动求梯度变得可行。
解答:
虽然我们之前构造了Conv2D类,但由于corr2d使用了对单个元素赋值([i, j]=)的操作因而无法自动求梯度。
课后练习3
问题:
如何通过变化输入和核数组将互相关运算表示成一个矩阵乘法?
解答:
(1)参考知乎上的解释:卷积计算为什么要转成矩阵乘法?
为了加速运算啊,传统的卷积核依次滑动的计算方法很难加速。转化为矩阵乘法之后,就可以调用各种线性代数运算库,CUDA里面的矩阵乘法实现。这些矩阵乘法都是极限优化过的,比暴力计算快很多倍。
转载自:https://www.zhihu.com/question/263430019
(2)卷积运算转换为矩阵乘法的流程
通过一个例子来讲解一下,怎么把卷积运算转换为矩阵乘法运算。
转载自:https://blog.csdn.net/lingerlanlan/article/details/23863347
课后练习4
问题:如何构造一个全连接层来进行物体边缘检测?
解答:为什么要使用全连接层呢?是为了和卷积层对比,体现卷积层参数个数少的优势吧?
from mxnet import autograd, nd
from mxnet.gluon import nn
from mxnet.gluon import loss as gloss
def corr2d(X, K): # 本函数已保存在d2lzh包中方便以后使用
h, w = K.shape
Y = nd.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
for i in range(Y.shape[0]):
for j in range(Y.shape[1]):
Y[i, j] = (X[i: i + h, j: j + w] * K).sum()
return Y
X = nd.ones((6, 8))
X[:, 2:6] = 0
K = nd.array([[1, 1], [-1, -1]])
# K = nd.array([[1, -1]])
print('K :',K)
Y = corr2d(X, K)
# 二维卷积层使用4维输入输出,格式为(样本, 通道, 高, 宽),这里批量大小(批量中的样本数)和通
# 道数均为1
X = X.reshape((1, 1, X.shape[0], X.shape[1]))
Y = Y.reshape((1, 1, Y.shape[0], Y.shape[1]))
# 构造一个输出通道数为1(将在“多输入通道和多输出通道”一节介绍通道),核数组形状是(2, 2)的二
# 维卷积层
conv2d = nn.Conv2D(1, kernel_size=K.shape)
conv2d.initialize()
Y_hat = conv2d(X)
loss = gloss.L2Loss()
for i in range(8):
with autograd.record():
Y_hat = conv2d(X)
#l = loss(conv2d(X), Y)
# l = (Y_hat - Y) ** 2
# 可以采用如下方式计算loss:
temp = (Y_hat - Y) ** 2
l = 0.5*nd.sqrt(nd.mean(temp, axis=0, exclude=True))
l.backward()
# 简单起见,这里忽略了偏差
conv2d.weight.data()[:] -= 3e-2 * conv2d.weight.grad()
print('batch %d, loss %.3f' % (i + 1, l.sum().asscalar()))
if i == 0:
print('loss ',l)
print('conv2d.weight.grad',conv2d.weight.grad())
print('conv2d.weight.data()',conv2d.weight.data())