【卷积神经网络】

最新推荐文章于 2024-08-07 21:19:36 发布

菜鸟炼丹师

最新推荐文章于 2024-08-07 21:19:36 发布

阅读量141

点赞数 2

分类专栏： # 沐神动手学ai学习笔记深度学习文章标签： cnn 机器学习人工智能

本文链接：https://blog.csdn.net/chenjunheaixuexi/article/details/125371129

版权

沐神动手学ai学习笔记同时被 2 个专栏收录

14 篇文章 3 订阅

订阅专栏

深度学习

14 篇文章 0 订阅

订阅专栏

本文探讨了在图像分类任务中，如何从全连接层过渡到卷积层以实现平移不变性和局部性。通过限制权重依赖和使用二维交叉相关，卷积层能够捕捉图像中的关键特征，同时减少了参数数量。此外，介绍了填充和步幅的概念，以控制输出尺寸和减少计算量。多输入输出通道则允许模型处理彩色图像或多模态信息。最后，简要提及了池化层的作用，它们用于缓解位置敏感性并降低计算复杂度。

摘要由CSDN通过智能技术生成

问题引出

分类猫和狗的图片

使用一个还不错的相机采集图片(12M像素)
RGB图片有36M元素
使用100大小的单隐藏层MLP,模型有3.6B元素
- 远多于世界上所有猫和狗总数（900M狗，600M猫）

如果我们想在一张图片中寻找特定元素
在这里插入图片描述
那么它应该满足两个原则：

平移不变性（即无论他出现在图片的哪个部分，其特征应该相同）
局部性（只需要关注目标周围的特征，而不需要记住全局）

从全连接层出发得到卷积层

之前我们的输入是一个1-D的向量，但如果我们对灰度图不进行压缩，他将有两个纬度的信息（Weight and Height），因此我们重新将输入变成一个2-D的矩阵，同时输出也是一个2-D的矩阵
之前我们要表示某个全连接层之间的参数，只需要两个位置信息 $i, j$ ，那么 $w_{i,j}$ 就表示前一层 $i$ 位置的特征与后一层 $j$ 位置的输出；但对于矩阵而言我们将需要4个位置参数：
$h_{i,j}=\sum\limits_{k,l}w_{i,j,k,l}x_{k,l}=\sum\limits_{a,b}v_{i,j,a,b}x_{i+a,j+b}$
- 这里 $h_{i,j}$ 表示输出层的具体一个点， $x_{k,l}$ 表示输入层的具体一个点， $w_{i,j,k,l}$ 表示连接这两个点的参数
- 其中 $k 、 l$ 可以看作是绝对位置，而 $a 、 b$ 是基于 $i 、 j$ 的相对位置

我们再来看上面的两个原则：

平移不变性

对于上面的 $h_{i,j}$ ， $x$ 的平移必然会导致 $h$ 的变化
因此 $v$ 不应该依赖于 $(i, j)$
解决方案： $v_{i,j,a,b}=v_{a,b}$ $h_{i,j}=\sum\limits_{a,b}v_{a,b}x_{i+a,j+b}$
这就是二维交叉相关

局部性

当评估 $h_{i,j}$ 时，我们不应该用远离 $x_{i,j}$ 的参数
解决方案：当 $∣ a ∣, ∣ b ∣ > △$ 时，使得 $v_{a,b}=0$ $h_{i,j}=\sum\limits_{a=-△}^△\sum\limits_{b=-△}^△v_{a,b}x_{i+a,j+b}$

总结

对全连接层使用平移不变性和局部性得到卷积层

卷积层

下面是一个简单的二维卷积层
在这里插入图片描述

在这里插入图片描述

输入 $X$ ： $n_h\times n_w$
核 $W$ ： $k_h\times k_w$
偏差 $b\in R$
输出 $Y$ ： $(n_h-k_h+1)\times(n_w-k_w+1)$ $Y = X W + b$
$W$ 和 $b$ 都时可学习的参数

总结

卷积层将输入和核矩阵进行交叉相关，加上偏移后得到输出
核矩阵和偏移是可学习的参数
核矩阵的大小是超参数

填充和步幅

填充

在输入周围添加额外的行/列
如果我们填充 $p_h$ 行和 $p_w$ 列，那么输出的形状为：
$(n_h-k_h+p_h+1)\times(n_w-k_w+p_w+1)$
如果我们选择 $p_h=k_h-1$ ， $p_w=k_w-1$ ，那么输入输出的纬度将相同
- 当 $k_h$ 为奇数：在上下两侧填充 $p_h/2$
- 当 $k_h$ 为偶数：在上侧填充多一行，下侧填充少一行

步幅

填充减小的输出大小与层数线性相关
- 给定输入大小224×224，在使用5×5卷积核的情况下，需要44层将输出降低到4×4
- 需要大量计算才能得到较小输出
步幅是指行/列的滑动步长
- 例：高度3宽度2的步幅
给定高度 $s_h$ 和宽度 $s_w$ 的步幅，输出形状是
$\lfloor (n_h-k_h+p_h+s_h)/s_h\rfloor\times\lfloor (n_w-k_w+p_w+s_w)/s_w\rfloor$
如果 $p_h=k_h-1$ ， $p_w=k_w-1$ ，那么可以简化为：
$\lfloor (n_h-1+s_h)/s_h\rfloor\times\lfloor (n_w-1+s_w)/s_w\rfloor$
更进一步，如果输入的高度和宽度刚好能被对应的步幅整除：
$(n_h/s_h)\times(n_w/s_w)$
总结
填充和步幅是卷积层的超参数
填充在输入周围添加额外的行/列，来控制输出形状的减少量
步幅是每次滑动核窗口时的行/列的步长，可以成倍的减少输出形状