AlexNet层级分析(涉及:卷积核操作下下层网络特征图size计算;对通道和卷积核尺寸及通道前层feature map和卷积核的运算关系的解释)

先盗一图,摘自ImageNet Classification with Deep Convolutional Neural Networks(Hinton)


注:看到这个结构,可以得到以下结论(以2、3层为例)

1、第三层有128*2=256个通道,第二层有48*2=96个通道。每个通道内包含一张前层经卷积核卷积的的feature map,共256张和96张。而由第二层到第三层,第三层通道数(或feature map数)与卷积核相同,卷积核有256个。

2、由第二层的5*5立方体知,其向下映射的下层卷积核是 5*5*channel的立体卷积核,每一个第三层的feature map,都是通过对应该通道的卷积核与第二层相应通道进行卷积得到的。




由作者的原文可知,AlexNet模型在训练时使用了两个GPU,所以就出现了一些参数为两个GPU共享,一些参数是GPU独享。在建立此训练模型前,先分析各层的参数关系。

AlexNet模型共有5个卷积层,3个全连接层,前两个卷积层和第五个卷积层有pool池化层,其他两个卷积层没有池化。

第一卷积层:

由AlexNet架构图,第一卷积层的卷积核有96个(两个GPU各用48个),卷积核的尺度为11*11*3(3为RGB通道数),(注意:卷积核个数和卷积核尺度两个概念,卷积核尺度数描述卷积核的大小)步长stride为4。生成的卷积特征图单元数为55*55*48*2,每个特征图尺度为55*55,由此可知输入图像尺度为227*227(55(单向尺度)*4(步长) + (11(卷积核尺度)-4(步长)) = 227)。因此输入图像单元数为227*227*3*1(1为GPU数)

(对通道和卷积核尺寸及通道前层feature map和卷积核的运算关系的解释:


第一池化层:

输入单个特征图尺度为55*55,池化尺度3*3,步长为2,输出池化特征图尺度为27*27((55(单向尺度)-3(池化尺度))/2(步长)+1 = 27)。特征图单元数为27*27*48*2.

第二卷积层:

由AlexNet架构图,卷积核有256个(两个GPU各128个,同时各作用于各GPU内的第一池化层的输出),卷积核尺度5*5*3,步长为1,生成卷积特征图单元数为27*27*128*2,每个特征图尺度为27*27,由此计算输入特征图尺度为31*31(27(单向尺度)*1(步长)+(5(卷积核尺度)-1(步长))= 31)。因此输入特征图单元数为31*31*96。

第二池化层:

输入单个特征图尺度为27*27,池化尺度3*3,步长为2,输出池化特征图尺度为13*13((27(单向尺度)-3(池化尺度))/2(步长)+ 1 = 13)。特征图单元数为13*13*128*2.

第三卷积层:

由AlexNet架构图,卷积核有384个(两个GPU各192个,同时需要共享各自GPU第二池化层的输出),卷积核尺度为3*3*3,步长为1,生成卷积特征图单元数为13*13*192*2,每个特征图尺度为13*13,由此计算输入特征图尺度为15*15(13(单向尺度)*1(步长)+(3(卷积核尺度)-1(步长))=15)。因此输入特征图单元数为15*15*256。

第四卷积层:

由AlexNet架构图,卷积核有384个(两个GPU各192个,同时不共享各自GPU内的第三卷积层输出),卷积核尺度为3*3*3,步长为1,生成卷积特征图单元数为13*13*192*2,每个特征图尺度为13*13,由此计算输入特征图尺度为15*15(13(单向尺度)*1(步长)+(3(卷积核尺度)-1(步长))=15)。因此输入特征图单元数为15*15*384。

第五卷积层:

由AlexNet架构图,卷积核有256个(两个GPU各128个,同时不共享各自GPU内的第四卷积层输出),卷积核尺度为3*3*3,步长为1,生成卷积特征图单元数为13*13*128*2,每个特征图尺度为13*13,由此计算输入特征图尺度为15*15(13(单向尺度)*1(步长)+(3(卷积核尺度)-1(步长))=15)。因此输入特征图单元数为15*15*384。

第五池化层:

输入单个特征图尺度13*13,池化尺度3*3,步长为2,输出池化特征图尺度为6*6((13(单向尺度)-3(池化尺度))/2(步长)+1 = 6)。特征图单元数为6*6*256.

第一全连接层:

输入特征图单元数为6*6*256,输出特征图单元数为4096,全连接参数个数为6*6*256*4096.

第二全连接层:

输入特征图单元数4096,输出特征图单元数为4096,全连接参数个数为4096*4096.

第三全连接层:

即输出层,输入特征图单元数为4096,输出特征图单元数为1000,全连接参数个数为4096*1000.

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
卷积神经网络(Convolutional Neural Network, CNN)是一种专门针对像、视频等结构化据设计的深度学习模型,它在计算机视觉、语音识别、自然语言处理等多个领域都有广泛应用。CNN的核心设计理念源于对生物视觉系统的模拟,尤其是大脑皮层中视觉信息处理的方式,其主要特点包括局部感知、权重共享、多层级抽象以及空间不变性。以下是CNN技术的详细介绍: ### **1. 局部感知与卷积操作** **卷积层**是CNN的基本构建块,它通过使用一组可学习的滤波器(或称为卷积核)对输入像进行扫描。每个滤波器在像上滑动(卷积),并以局部区域(感受野)内的像素值与滤波器权重进行逐元素乘法后和,生成一个输出值。这一过程强调了局部特征的重要性,因为每个滤波器仅对一小部分相邻像素进行响应,从而能够捕获像中的边缘、纹理、颜色分布等局部特征。 ### **2. 权重共享** 在CNN中,同一滤波器在整个输入像上保持相同的权重(参)。这意味着,无论滤波器在像的哪个位置应用,它都使用相同的参集来提取特征。这种权重共享显著减少了模型所需的参量,增强了模型的泛化能力,并且体现了对像平移不变性的内在假设,即相同的特征(如特定形状或纹理)不论出现在像的哪个位置,都应由相同的滤波器识别。 ### **3. 池化操作** **池化层**通常紧随卷积层之后,用于进一步降低据维度并引入一定的空间不变性。常见的池化方法有最大池化和平均池化,它们分别取局部区域的最大值或平均值作为输出。池化操作可以减少模型对微小位置变化的敏感度,同时保留重要的全局或局部特征。 ### **4. 多层级抽象** CNN通常包含多个卷积和池化层堆叠在一起,形成深度网络结构。随着网络深度的增加,每一层逐渐提取更复杂、更抽象的特征。底层可能识别边缘、角点等低级特征,中间层识别纹理、部件等中级特征,而高层可能识别整个对象或场景等高级语义特征。这种层级结构使得CNN能够从原始像素据中自动学习到丰富的表示,无需人工设计复杂的特征。 ### **5. 激活函与正则化** CNN中通常使用非线性激活函(如ReLU、sigmoid、tanh等)来引入非线性表达能力,使得网络能够学习复杂的决策边界。为了防止过拟合,CNN常采用正则化技术,如L2正则化(权重衰减)来约束模型复杂度,以及Dropout技术,在训练过程中随机丢弃一部分神经元的输出,以增强模型的泛化性能。 ### **6. 应用场景** CNN在诸多领域展现出强大的应用价值,包括但不限于: - **像分类**:如识别像中的物体类别(猫、狗、车等)。 - **目标检测**:在像中定位并标注出特定对象的位置及类别。 - **语义分割**:对像中的每个像素进行分类,确定其所属的对象或背景类别。 - **人脸识别**:识别或验证个体身份。 - **像生成**:通过如生成对抗网络(GANs)等技术创建新的、逼真的像。 - **医学影像分析**:如肿瘤检测、疾病诊断等。 - **自然语言处理**:如文本分类、情感分析、词性标注等,尽管这些任务通常结合其他类型的网络结构(如循环神经网络)。 ### **7. 发展与演变** CNN的概念起源于20世纪80年代,但其影响力在硬件加速(如GPU)和大规模据集(如ImageNet)出现后才真正显现。经典模型如LeNet-5用于手写字识别,而AlexNet、VGG、GoogLeNet、ResNet等现代架构在像识别竞赛中取得突破性成果,推动了CNN技术的快速发展。如今,CNN已经成为深度学习像处理领域的基石,并持续创新,如引入注意力机制、残差学习、深度可分离卷积等先进思想。 综上所述,卷积神经网络通过其独特的局部感知、权重共享、多层级抽象等特性,高效地从据中提取特征并进行学习,已成为解决像和视频处理任务不可或缺的工具,并在众多实际应用中取得了卓越的效果。
### 回答1: 双通道四核卷积神经网络是一个深度学习模型,由多个网络层组成。下面是它不同网络层的描述: 1. 输入层:该层接受输入的原始据,并将其转换为神经网络可处理的格式。 2. 卷积层1:该层使用四个核来提取特征。该层的输出是一个包含多个特征的张量。 3. 池化层1:该层对卷积层1的输出进行下采样,以减少特征的大小。这有助于降低后续层的计算复杂度和内存消耗。 4. 卷积层2:该层使用四个核来进一步提取特征。该层的输出是一个包含多个特征的张量。 5. 池化层2:该层对卷积层2的输出进行下采样,以进一步减小特征的大小。 6. 全连接层1:该层将池化层2的输出展平,并将其输入到一个具有多个神经元的全连接层中。该层的输出是一个向量,其中每个元素对应于一个类别的分。 7. Dropout层:该层随机地将一些神经元的输出设置为零,以减少模型的过拟合。 8. 全连接层2:该层接受Dropout层的输出,并将其输入到一个具有多个神经元的全连接层中。该层的输出是一个向量,其中每个元素对应于一个类别的分。 9. Softmax层:该层将全连接层2的输出转换为一个概率分布,以便可以进行分类。 ### 回答2: 双通道四核卷积神经网络由多个不同的网络层组成,每个网络层都具有特定的功能和特征提取能力。 1. 输入层:输入层是将原始据输入到神经网络中的第一个层级,通常是像或其他类型的据。输入层的主要目的是将原始据转换为神经网络可处理的格式。 2. 卷积层:卷积层是神经网络中最重要的层之一。该层通过使用多个卷积核对输入据进行卷积操作,从而提取局部特征。每个卷积核都会生成一个特定的特征,用于表示输入据的不同特征。 3. 激活层:激活层被添加在卷积层之后,其作用是引入非线性变换。常用的激活函有ReLU、Sigmoid和Tanh等,可将卷积层输出的结果转换为更具有表达能力的形式。 4. 池化层:池化层通常紧接在激活层之后。该层的主要功能是减小特征尺寸,同时保留最重要的特征。常见的池化方式有最大池化和平均池化。 5. 全连接层:在经过卷积和池化层后,全连接层会将上一层的输出连接到神经网络的输出层。该层中每个神经元都与上一层的所有神经元相连接,其目的是用于分类和预测任务。 6. 输出层:输出层是神经网络的最后一层,其根据任务的要定义输出的形式和量。对于分类任务,输出层通常使用softmax函将神经网络预测的结果转化为概率分布。 双通道四核卷积神经网络结构的每个网络层都起着不同的作用,通过这些层的组合和堆叠,神经网络可以提取输入据中的各种复杂特征,并用于不同的任务和应用中。具体的网络结构可以根据实际需进行调整和优化。 ### 回答3: 双通道四核卷积神经网络结构通常包含输入层、卷积层、池化层、全连接层和输出层。 输入层:双通道四核卷积神经网络的输入层用于接收输入据,可以是像、文本或其他形式的据。输入层负责将输入据传递给下一层进行处理。 卷积层:卷积层是双通道四核卷积神经网络的核心层之一,使用多个卷积核对输入据进行卷积操作。每个卷积核负责提取输入据的特征,并产生一张特征。双通道表示每个卷积核在两个通道上进行卷积操作并生成两张特征。 池化层:池化层用于缩小卷积层输出的特征尺寸,并减少参量。常用的池化操作包括最大池化和平均池化。池化层能够保留特征中的主要信息,并减少计算量。 全连接层:全连接层将池化层的输出特征展平为一维向量,并连接到一个或多个全连接神经元上。全连接层提供了神经网络的非线性处理能力,能够学习复杂的特征组合。 输出层:输出层是神经网络的最后一层,通常使用softmax函对全连接层的输出进行处理,将输出值转化为概率分布。输出层的神经元量通常与待分类的类别量相等。 双通道四核卷积神经网络结构中,卷积层和池化层通常会通过交替堆叠的方式来提取并降维输入据的特征信息,全连接层则用于将提取到的特征映射到具体的分类结果。网络层的深度和参量通常会根据任务的复杂性进行调整,以权衡模型的复杂性和性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值