动手学深度科学课后作业-CNN

最新推荐文章于 2023-09-17 21:01:15 发布

YawenLuo

最新推荐文章于 2023-09-17 21:01:15 发布

阅读量463

点赞数

文章标签： cnn 深度学习 python

本文链接：https://blog.csdn.net/qq_52106152/article/details/130881631

版权

卷积神经网络

从全连接层到卷积 - why conv

1.假设卷积层覆盖的局部区域 Δ=0 。在这种情况下，证明卷积内核为每组通道独立地实现一个全连接层

当 $\Delta$ =0时，公式变化为：

$[H]_{i,j,d} = \sum_{a=0}^{0} \sum_{b=0}^{0} \sum_{c} [V]_{0,0,c,d}[X]_{i,j,c} \\= \sum_{c} [V]_{c,d}[X]_{i,j,c}$
其中c为通道，每一个输出则是对输出元素位置对应的输入元素的按通道累加，也就是1*1卷积。

2.为什么平移不变性可能也不是好主意呢？

并不是所有场合都符合平移不变性的，视觉上所看到物体的形状纹理颜色都会收到背景的影响，当其平移后能够在一定程度上满足平移不变性时候，卷积神经网络才能较好的起作用，反之，则不能起到很好的作用。

当从图像边界像素获取隐藏表示时，我们需要思考哪些问题

1 图像尺寸会改变，需要考虑图像尺寸的保持
2 需要padding吗，需要多大的padding

描述一个类似的音频卷积层的架构

音频是一维数据，可能类似于局部全连接？

卷积层也适合于文本数据吗？为什么？

不适合，文本数据受到语境的影响很大。即理解到的意思一定程度上取决于上下文。

图像卷积-conv-layer

构建一个具有对角线边缘的图像X
A 如果将本节中举例的卷积核K应用于X，会发生什么情况
会检测出多像素宽度的边缘，具体实现如下：

  import torch

X = torch.eye(6)
K = torch.tensor([[1, -1]])
def corr2d(X, K):
    y = torch.zeros((X.shape[0] - K.shape[0] + 1, X.shape[1] - K.shape[1] +1))
    for i in range(y.shape[0]):
        for j in range(y.shape[1]):
            y[i, j] = ((X[i:i+K.shape[0], j:j+K.shape[1]])*K).sum()
    return y
y = corr2d(X, K)
print(y)
"""
tensor([[ 1.,  0.,  0.,  0.,  0.],
        [-1.,  1.,  0.,  0.,  0.],
        [ 0., -1.,  1.,  0.,  0.],
        [ 0.,  0., -1.,  1.,  0.],
        [ 0.,  0.,  0., -1.,  1.],
        [ 0.,  0.,  0.,  0., -1.]])
"""

B 如果转置X会发生什么？

仍旧可以检测出边缘

如果转置K会发生什么？

检测的结果会发生转置

如何通过改变输入张量和卷积核张量，将互相关运算表示为矩阵乘法？

拉伸每一个输出元素所对应的输入张量的对应元素。

填充和步幅-padding-and-strides

对于音频信号，步幅 2 说明什么
等价于2倍下采样。
步幅大于 1 的计算优势是什么？
降低计算复杂度，减轻存储和计算压力。

多输入多输出通道

假设我们有两个卷积核，大小分别为 𝑘1 和 𝑘2
A 证明运算可以用单次卷积来表示。
B 这个等效的单个卷积核的维数是多少呢
$k_1-1)+k_2$
假设输入为 𝑐𝑖×ℎ×𝑤 ，卷积核大小为 𝑐𝑜×𝑐𝑖×𝑘ℎ×𝑘𝑤 ，填充为 (𝑝ℎ,𝑝𝑤) ，步幅为(𝑠ℎ,𝑠𝑤)
A 前向传播的计算成本
乘法： $c_0 *c_i *(((h+p_h-k_h)/S_h)+1)(((w+p_w-k_w)/s_w)+1) *k_h*k_w$
加法: $c_0 *c_i *(((h+p_h-k_h)/S_h)+1)(((w+p_w-k_w)/s_w)+1) *(k_h*k_w-1)$ （这里没有考虑偏执）
内存占用是多少？
参数占用： $c_o*(c_i*k_h*k_w+1)$
输入特征图: $𝑐_i*ℎ*𝑤$
输出特征图: $c_o*(((h+p_h-k_h)/S_h)+1)(((w+p_w-k_w)/s_w)+1)$
反向传播的内存占用是多少？
反向传播的计算成本是多少？
如果我们将输入通道 𝑐𝑖 和输出通道 𝑐𝑜 的数量加倍，计算数量会增加多少？如果我们把填充数量翻一番会怎么样

通道翻倍则计算量翻倍，填充增加则是线性增长复杂度。

如果卷积核的高度和宽度是 𝑘ℎ=𝑘𝑤=1 ，前向传播的计算复杂度是多少？
$o(c_i*c_o*h*w)$
本节最后一个示例中的变量Y1和Y2是否完全相同？为什么？
不会精度问题。

pooling

你能将平均汇聚层作为卷积层的特殊情况实现吗？

import torch
import torch.nn as nn

in_channel, out_channel = 1, 1
padding = 2
avg_pooling = nn.Conv2d(kernel_size=2, in_channels=in_channel, out_channels=out_channel, padding=0,stride=padding,bias=False)
nn.init.constant_(avg_pooling.weight, 1/4)
print(avg_pooling.weight)
X = torch.range(start=1, end=16).reshape((1,1,4, 4))
y = avg_pooling(X)
print(y)
'''
Parameter containing:
tensor([[[[0.2500, 0.2500],
          [0.2500, 0.2500]]]], requires_grad=True)
tensor([[[[ 3.5000,  5.5000],
          [11.5000, 13.5000]]]], grad_fn=<ConvolutionBackward0>)
'''