1.步长、填充
步长(stride):指卷积神经网络(CNN)中,卷积核在进行卷积操作时在输入数据上滑动的步长。步长越大,输出的特征图尺寸越小,计算量也会减少。
填充(padding):指在输入数据的边缘处添加一定数量的虚拟数据,使得卷积核可以在边缘处进行卷积操作。填充可以控制输出的特征图尺寸,并且可以避免信息丢失。
2.感受野
感受野(receptive field):指卷积神经网络中某个特征图上的一个像素点,在输入数据中对应的区域大小。感受野可以帮助我们理解神经网络对输入数据的感知范围。
3.局部感知、权值共享
局部感知(local perception):指卷积神经网络中,卷积核只在输入数据的局部区域上进行卷积操作。这样可以减少网络参数的数量,从而降低过拟合的风险。
权值共享(weight sharing):指在卷积神经网络中,每个卷积核的参数都被用于在输入数据的不同位置进行卷积操作。这样可以减少网络参数的数量,并且可以让神经网络对输入数据的不同位置具有相同的响应,从而提高模型的泛化性能。
4.池化(子采样、降采样、汇聚)
池化是深度学习中的一种操作,也被称为子采样、降采样或汇聚。它通常用于卷积神经网络(CNN)中,作为一种数据压缩和特征提取的技术。
池化操作可以将输入数据的尺寸缩小,同时保留最重要的特征。池化通常在卷积层之后应用,以减少下一层所需的计算量。常见的池化操作包括最大池化和平均池化。
最大池化是将输入数据分割成固定大小的矩形区域(例如2x2),然后从每个区域中选取最大值作为该区域的代表值。这样可以有效地减少数据的尺寸,并且保留最显著的特征。
平均池化与最大池化类似,但是使用每个区域中所有值的平均值作为该区域的代表值。它通常用于需要保留更多细节信息的任务。
除了最大池化和平均池化,还有其他类型的池化操作,如L2池化、随机池化等。池化操作的选择取决于任务的具体要求和模型的结构。
5.低级特征、中级特征、高级特征
在计算机视觉领域中,通常将特征分为三个层次:低级特征、中级特征和高级特征。
低级特征指的是图像中的局部细节信息,如边缘、角点、纹理等。这些特征通常可以通过图像处理中的滤波器来提取,例如Sobel算子、Canny算子等。
中级特征指的是在低级特征的基础上组合而成的更复杂的图像模式,如线条、形状等。中级特征通常需要通过特征提取算法,如SIFT、HOG等方法来提取。
高级特征指的是更抽象和语义化的特征,如物体的形状、位置、大小、颜色、纹理等。高级特征通常需要进行深度学习训练,如卷积神经网络(CNN)等方法来提取。
在图像识别和分类任务中,通常使用低级特征进行预处理,然后使用中级特征进行特征提取和分类,最终使用高级特征进行分类和识别。不同的特征层次对于不同的任务有不同的贡献,如低级特征对于图像匹配和目标检测较为重要,而高级特征对于图像分类和识别较为重要。