CNN的常见问题

最新推荐文章于 2022-10-11 16:37:20 发布

vinojie

最新推荐文章于 2022-10-11 16:37:20 发布

阅读量1.2k

点赞数

分类专栏：深度学习文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/vinojie/article/details/106497663

版权

深度学习专栏收录该内容

7 篇文章 5 订阅

订阅专栏

1、卷积核是否一定越大越好？

早期的卷积神经网络如LeNet-5、AlexNet，用到一些较大卷积核 $(11 * 11 和 5 * 5 ）$ ，是因为其受限于当时的计算能力和模型结构的设计，无法将网络叠加的很深，因此需要较大卷积核以获取较大的感受域。但是这种较大的卷积核反而导致计算量的增加，不利于训练更深的模型，相应的计算性能也会降低。
后来的过堆叠2个3×3卷积核可以获得与5×5卷积核相同的感受视野，同时参数量会更少（3×3×2+1 < 5×5×1+1），3×3卷积核被广泛应用在许多卷积神经网络中。因此可以认为，在大多数情况下通过堆叠较小的卷积核比直接采用单个更大的卷积核会更加有效。

但是，在其他领域应用卷积神经网络仍然可以采用较大的卷积核，例如自然语言处理中，由于文本内容不需要对特征进行很深层次的抽象，以及有些文本特征需要较广的感受域来让模型组合更多的特征，此时采用较大的卷积核是较好的选择。

2、每层卷积是否只能使用一种尺寸的卷积核？

可以；
如GoogLeNet、Inception系列的网络，均是每层使用了多个卷积核结构。如图5.3所示，输入的特征在同一层分别经过1×1、3×3和5×5三种不同尺寸的卷积核，再将分别得到的特征进行整合，得到的新特征可以看作不同感受域提取的特征组合，相比于单一卷积核会有更强的表达能力。

3、怎样才能减少卷积层的参数量？

减少卷积层参数量的方法可以简要地归为以下几点：

使用堆叠小卷积核代替大卷积核：VGG网络中2个3×3的卷积核可以代替1个5×5的卷积核
使用分离卷积操作：将原本K×K×C的卷积操作分离为K×K×1和1×1×C的两部分操作
添加1×1的卷积操作：与分离卷积类似，但是通道数可变，在K×K×C1卷积前添加1×1×C2的卷积核（满足C2<C1）
在卷积层前使用池化操作：池化可以降低卷积层的输入特征维度

4、卷积神经网络的参数设置

参数名	常见设置	参数说明
学习率(Learning Rate)	0-1	反向传播网络中更新权值矩阵的步长，在一些常见的网络中会在固定迭代次数或模型不再收敛后对学习率进行指数下降(如lr=lr×0.1)。当学习率越大计算误差对权值矩阵的影响越大，容易在某个局部最优解附近震荡；越小的学习率对网络权值的更新越精细，但是需要花费更多的时间去迭代
批次大小(Batch Size)	1-N	批次大小指定一次性流入模型的数据样本个数，根据任务和计算性能限制判断实际取值，在一些图像任务中往往由于计算性能和存储容量限制只能选取较小的值。在相同迭代次数的前提下，数值越大模型越稳定，泛化能力越强，损失值曲线越平滑，模型也更快地收敛，但是每次迭代需要花费更多的时间
数据轮次(Epoch	1-N	数据轮次指定所有训练数据在模型中训练的次数，根据数据集规模和分布情况会设置为不同的值。当模型较为简单或训练数据规模较小时，通常轮次不宜过高，否则模型容易过拟合；模型较为复杂或训练数据规模足够大时，可适当提高数据的训练轮次。
权重衰减系数(Weight Decay)	0-0.001	模型训练过程中反向传播权值更新的权重衰减值

5、提高CNN的泛化能力的方法

使用更多的数据、
使用更大的批次：更大的批次可以计算更精确的梯度估计
调整数据的分布：大多数场景下的数据分布是不均匀的，模型过多地学习某类数据容易导致其输出结果偏向于该类型的数据，此时通过调整输入的数据分布可以一定程度提高泛化能力
调整目标函数
调整网络结构：在浅层卷积神经网络中，参数量较少往往使模型的泛化能力不足而导致欠拟合，此时通过叠加卷积层可以有效地增加网络参数，提高模型表达能力；在深层卷积网络中，若没有充足的训练数据则容易导致模型过拟合，此时通过简化网络结构减少卷积层数可以起到提高模型泛化能力的作用
数据增强：在有限数据的基础上对原数据进行调整（如，添加噪声，图像数据，通过平移，旋转等一系列操作增加数据）
权值正则化
屏蔽网络节点：该方法可以认为是在网络结构上的正则化，droupout，可以使模型的容错性更强。

6、局部连接（稀疏交互）

感受野：每个神经元与输入神经元相连接的一块区域。在图像卷积操作中，神经元在空间维度上是局部连接，但在深度上是全连接。局部连接的思想，是受启发于生物学里的视觉系统结构，视觉皮层的神经元就是仅用局部接受信息。对于二维图像，局部像素关联性较强。这种局部连接保证了训练后的滤波器能够对局部特征有最强的响应，使神经网络可以提取数据的局部特征。

7、参数共享（权值共享）

权值共享即计算同一深度的神经元时采用的卷积核参数是共享的。思想就是提取的底层边缘特征与其在图中的位置无关。需要注意的是，权重只是对于同一深度切片的神经元是共享的。在卷积层中，通常采用多组卷积核提取不同的特征，即对应的是不同深度切片的特征，而不同深度切片的神经元权重是不共享。相反，偏置这一权值对于同一深度切片的所有神经元都是共享的。权值共享带来的好处是大大降低了网络的训练难度。