卷积神经网络（CNN）的细节问题（滤波器的大小选择）

最新推荐文章于 2024-09-10 21:39:58 发布

五道口纳什

最新推荐文章于 2024-09-10 21:39:58 发布

阅读量3.4w

点赞数 6

分类专栏：细节文章标签： CNN 卷积神经网络权值共享

本文链接：https://blog.csdn.net/lanchunhui/article/details/60886027

版权

细节专栏收录该内容

19 篇文章 2 订阅

订阅专栏

0. 滤波器的大小选择

大部分卷积神经网络都会采用逐层递增（1⇒ 3 ⇒ 5 ⇒ 7）的方式。
每经过一次池化层，卷积层过滤器的深度都会乘以 2；

1. 权值共享：减轻过拟合 & 降低计算量

一个卷积层（Wx+b ⇒ ReLU ⇒ maxpooling）可以有多个不同的卷积核，而每一个卷积核都对应一个滤波后映射出的新图像，同一个新图像中的每一个像素都来自完全相同的卷积核，这就是卷积核的权值共享。

那么为什么要共享卷积核的权值参数呢？

降低模型复杂度以减轻过拟合；
降低计算量；

2. 待求参数数目的量化分析

考虑 $10^3\times 10^3$ 的输入图像：

全连接，隐层神经元的数目为 106 时，则每一个输入像素与每一个隐层神经元之间都是待学习的参数，
- 数目为 $10^6\times 10^6=10^{12}$
卷积，卷积核的大小为 10×10 时，
- 步长为 10， $\frac{10^3\times 10^3}{10\times 10}\times \left(10\times 10\right)$ ， $\frac{10^3\times 10^3}{10\times 10}$ 表示的是输入图像可划分的块数，也即经卷机作用后的输出图像；
- 步长为 1， $\left(10^3-10+1\right)\times\left(10^3-10+1\right)\cdot \left(10\times 10\right)$
- 在不考虑步长的前提下，可近似将待学习的参数的数目视为 $\left(10^3\times 10^3\right)\cdot \left(10\times 10\right)$

3. CNN 的卷积与信号与系统中的卷积

CNN 的卷积并没有执行“翻转”操作，而是与输入图像做滑动窗口“相关”计算；

如果 $K$ 个输入通道（ $X^k,\quad 0\leq k <K$ ）的输入经若干卷积核的作用之后得到 $L$ 个通道的输出（ $Y^\ell, \quad 0\leq \ell<L$ ），需要的卷积核的数目为 $L\times K$ ：

Y ℓ (m, n) = = X k (m, n) ⋆ H k ℓ (m, n) \sum k = 0 K - 1 \sum i = 0 I - 1 \sum j = 0 J - 1 X k (m + i, n + j) H k ℓ (i, j)

$\begin{split} Y^\ell(m, n)=&X^k(m,n)\star H^{k\ell}(m,n)\\ =&\sum_{k=0}^{K-1}\sum_{i=0}^{I-1}\sum_{j=0}^{J-1}X^{k}(m+i, n+j)H^{k\ell}(i, j) \end{split}$

$H^{k\ell}(i, j)$ 表示的是第 $\ell$ 列，第 $k$ 行二维卷积核，卷积核的大小为 $I\cdot J$ 。