卷积神经网络理念

最新推荐文章于 2024-07-08 20:01:43 发布

调包调参侠

最新推荐文章于 2024-07-08 20:01:43 发布

阅读量295

点赞数

分类专栏：深度学习理论文章标签：深度学习人工智能神经网络算法

本文链接：https://blog.csdn.net/Andre_Jan/article/details/123932802

版权

5 篇文章 0 订阅

订阅专栏

将输入和输出变形为矩阵（宽度，高度）
将权重变形为4-D张量(h,w) 到（h‘，w’）
- $\large h_{i,j} = \sum_{k,l}w_{i,j,k,l}x_{k,l} = \sum_{a,b}v_{i,j,a,b}x_{i+a,j+b}$
- V是W的重新索引 $\large v_{i,j,a,b} = w_{i,j,k,l}$

平移不变性：不管检测对象出现在图像中的哪个位置，神经网络的前面几层应该对相同的图像区域具有相似的反应
- x的平移导致h的平移 $\large h_{i,j} = \sum_{a,b}\limits v_{i,j,a,b}x_{i+a,j+b}$
- v不应该依赖于(i,j)
- 因此 $\large v_{i,j,a,b} = v_{a,b}$
- $\large h_{i,j} = \sum_{a,b}\limits v_{a,b}x_{i+a,j+b}$
- 这就是二维交叉相关
局部性：神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远区域的关系
- $\large h_{i,j} = \sum_{a,b}\limits v_{a,b}x_{i+a,j+b}$
- 当评估 $h_{i,j}$ 时，我们不应该用远离 $x_{i,j}$ 的参数
- 解决方案：当|a|，|b|＞ $\Delta$ ,使得 $v_{a,b} = 0$
- $\large h_{i,j} = \sum_{a= -\Delta}^{\Delta} \limits \sum_{b= -\Delta}^{\Delta} \limits v_{a,b}x_{i+a,j+b}$
- 即：用一个卷积核进行限制

$\large h_{i,j} = \sum_{a,b}\limits v_{a,b}x_{i+a,j+b}$ ===> $\large h_{i,j} = \sum_{a= -\Delta}^{\Delta} \limits \sum_{b= -\Delta}^{\Delta} \limits v_{a,b}x_{i+a,j+b}$

卷积公式 $\int_{-∞}^∞ f(τ)g(t-τ)$ : 以人体消化为例：
- f(x) 当前的总量，g(t-x)：t时刻后，所消耗的比例因此计算t时刻后 $\int_0^t f(x)g(t-x)$
总结：一个系统，输入不稳定 f()，输出稳定g()，就可以用卷积求系统存量
6.卷积神经网络
- 取一个卷积核(3*3) ，将卷积核映射在图像的点阵上，
- 然后进行点阵与卷积核相乘后结果相加得到一个新的像素值然后得到一个新的图像，
- 因为映射会少一圈，因此会在图像的最外层加一圈0，最后就可以得到一个新的同样大小的图片
- $\int_{-∞}^∞ f(τ)g(t-τ)$
- 卷积核：规定了周围的像素点是如何对当前像素点产生影响的，
- 图像的卷积操作：通过卷积核对周围像素点的主动试探和选择，通过卷积核把周围有用的特征保留下来
- 总结一下卷积层
  - 不稳定输入、稳定输出 =》求系统存量（信号系统应用）
  - 周围像素点如何产生影响（图像处理应用）
  - 一个像素点如何试探（图像识别应用）

二维交叉相关
- $\huge h_{i,j} = \sum_{a= 1}^{h} \limits \sum_{b= 1}^{w} \limits w_{a,b}x_{i+a,j+b}$
二维卷积
- $\huge h_{i,j} = \sum_{a= 1}^{h} \limits \sum_{b= 1}^{w} \limits w_{-a,-b}x_{i+a,j+b}$
由于对称性，在实际使用中没有区别

一维： $\huge y_{i} = \sum_{a= 1}^{h} \limits w_{a}x_{i+a}$
- 文本、语言、时序序列
三维： $\huge y_{i,j,k} = \sum_{a= 1}^{h} \limits \sum_{b= 1}^{w} \limits \sum_{c= 1}^{h} \limits w_{a,b,c}x_{i+a,j+b,k+c}$
- 视频、医学图像、气象地图

填充 $p_h$ 行和 $p_w$ 列，输出形状为 $n_h-k_h+p_h + 1) × (n_w- k_w+ p_w +1)$
通常取 $p_h = k_h -1,p_w = k_w-1$
- 当 $k_h$ 为奇数时，在上下两侧填充 $p_h/2$
- 当 $k_h$ 为偶数时，在上下两侧填充 $p_h/2$ ，在左右两侧填充 $p_h/2$

填充减小的输出大小与层数线性相关
- 给定数大小224x224，在使用5x5卷积核的情况下，需要55层将输出降低到4x4
- 需要大量计算才能得到较小输出
步幅是指行/列的滑动步长
- 例：高度3宽度2的步幅
给定高度 $s_h$ ,和宽度 $s_w$ 的步幅，输出形状是 $n_h-k_h+p_h + s_h)/s_h] × [(n_w- k_w+ p_w +s_w)/s_w]$
如果 $p_h = k_h -1,p_w = k_w-1$ ，
- $n_h+ s_h-1)/s_h] × [(n_w +s_w-1)/s_w]$ # [ ] 内数值向上取整
如果输入高度和宽度可以被步幅整除 $n_h/s_h)×(n_w/s_w)$