卷积神经网络--基本知识问答

最新推荐文章于 2024-08-27 15:17:04 发布

不以物喜a

最新推荐文章于 2024-08-27 15:17:04 发布

阅读量778

点赞数 14

分类专栏：人工智能文章标签： cnn 人工智能神经网络数学建模算法

本文链接：https://blog.csdn.net/2301_80637569/article/details/141551531

版权

人工智能专栏收录该内容

3 篇文章 0 订阅

订阅专栏

手机特效中的目标检测主要是基于计算机视觉中的深度学习技术，尤其是卷积神经网络。
这一领域中的几个流行和高效的目标检测算法，如YOLO（You Only Look Once）、
SSD（Single Shot MultiBox Detector）、Faster R-CNN等，
被广泛应用于实时识别和跟踪视频或图像中的特定对象。

问：目标检测是如何实现的呢，将一张图片的信息点基于卷积网络提取特征这方面可以详细讲一下吗

答：旨在从图像中找出感兴趣的物体并确定它们的位置。使用卷积神经网络（CNN）进行目标检测通常包含以下几个关键步骤：

1. 卷积层（Feature Extraction）

目的：提取图像中的特征。卷积层通过学习一组可训练的滤波器（也称权重或核），对输入图像进行卷积操作，从而捕获不同级别的特征，比如边缘、纹理、形状等。每一层的输出称为特征图（Feature Map），随着层数加深，特征逐渐从低级（如线条、颜色）过渡到高级（如物体的部分或整体形状）。

2. 池化层（Downsampling）

目的：减少计算量，保留重要特征。池化操作（如最大池化或平均池化）通过在特征图上滑动一个窗口，并取窗口内像素的最大值或平均值作为输出，以此降低空间维度，同时保持主要特征不变，提高模型的鲁棒性和计算效率。

3. 全连接层（Classification）

在经典的目标检测框架中，如VGG或AlexNet，最终会使用全连接层进行分类。但对于现代的目标检测算法，如YOLO或Faster R-CNN，这个阶段更侧重于边界框回归和分类。

4. 区域建议（Region Proposal）

在一些方法中（如R-CNN系列），首先需要生成可能包含对象的候选区域。这可以通过选择性搜索等方法实现，但现代方法如Faster R-CNN通过区域提案网络（RPN）直接在特征图上生成候选框，提高了效率。

5. 特征映射与锚框（Anchors）

在YOLO和SSD等单阶段检测器中，直接在特征图的不同尺度上预设一组大小和比例固定的“锚框”（Anchors），每个锚框对应一种可能的对象大小和形状。网络直接预测每个锚框内的对象类别概率及边界框的偏移量，实现边框精调。

6. 边界框回归（Bounding Box Regression）

目的是精确调整候选框的位置。网络不仅预测每个区域属于各个类别的概率，还预测实际物体边界框相对于预设锚框的偏移量（如中心坐标、宽高比的变化），以便更准确地定位物体。

7. 非极大值抑制（Non-Maximum Suppression, NMS）

最后一步是处理重叠的预测框。NMS算法会根据预测置信度（通常是类别概率乘以定位准确性）对所有预测框排序，然后逐个检查，去除那些重叠度高于一定阈值的较弱预测框，保留最有可能正确的框。

问：卷积层（Feature Extraction）目的：提取图像中的特征。卷积层通过学习一组可训练的滤波器（也称权重或核），对输入图像进行卷积操作，从而捕获不同级别的特征，比如边缘、纹理、形状等。每一层的输出称为特征图（Feature Map），随着层数加深，特征逐渐从低级（如线条、颜色）过渡到高级（如物体的部分或整体形状）是否可以理解为，将图像信息转化为多个卷积层，卷积层由浅到深，捕捉不同信息，浅层次主要捕捉一些较小信息，如线条，颜色等，深层次模型捕捉信息量较大的模型，如物理整体框架等，但是这些信息是如何通过卷积层存储的呢，是通过矩阵的形式吗

答:卷积层确实通过一系列可学习的滤波器（权重或核）逐步提取图像中的特征，从简单到复杂的特征过渡。这些滤波器实质上是一组组小矩阵（通常为3x3, 5x5等尺寸），它们在图像上滑动，执行元素级别的乘法和求和运算，从而对图像进行卷积。这一过程可以看作是在不同的尺度和角度上检测特定模式。

信息如何通过卷积层存储：

矩阵形式：确实，卷积层的操作可以理解为使用矩阵（滤波器）与图像的一部分（局部区域，或者称为感受野）做卷积运算。每个滤波器矩阵中的元素代表了对图像特定区域内像素的不同重视程度。卷积后得到的结果也是一个矩阵，即特征图的一个部分。因此，卷积层的输出——特征图，就是一系列这样的矩阵组合，它们以多通道（例如RGB图像的每个颜色通道都有对应的特征图）的形式组织起来，可以视作是深度矩阵或四维张量（宽度、高度、通道数、批次大小）。
特征编码：在深度学习的上下文中，这些特征图的每一个通道都可以被理解为存储了一种特定类型的特征。比如，在较浅的层中，某些通道可能对边缘敏感，而在更深的层中，某些通道可能响应于更复杂的结构，如纹理、特定形状或甚至是更高层次的物体部分。特征图中的每个像素值反映了该位置对于该特征的响应强度。
参数共享与稀疏连接：卷积层的另一个关键特性是参数共享和稀疏连接，这意味着滤波器在整个图像上重复使用，减少了参数数量，同时允许模型学习到平移不变性的特征。这有助于模型泛化，使其能够识别在图像不同位置的相同特征。

问：这句话中滤波器就相当于一个转化器，以一定大小的矩阵形式，从图像上依次进行移动，然后捕捉图像所有特征吗，但是如果图像中一个物体在图像中占有多个矩阵，那么是否这些滤波器捕捉的信息就是一样的呢

答：滤波器确实可以被视为一种转化器，它通过在图像上滑动并执行卷积操作来提取特征。每个滤波器矩阵设计用于识别特定类型的图案或特征，如垂直边缘、水平边缘或是更复杂的纹理。当滤波器在图像上滑动时，它会在每个位置执行元素级别的乘法和求和运算，产生一个新的值，这个过程强调了图像在该位置与滤波器匹配的程度。

关于您的疑问，如果一个物体在图像中占据了多个位置，滤波器在这些位置上进行卷积时，理论上可能会捕捉到相似的特征信息，特别是当这些位置上的图案与滤波器所设计捕捉的特征相匹配时。然而，由于滤波器在图像的不同位置进行操作，即使是对同一个物体的不同部分，也可能因为视角、光照条件或遮挡等因素，导致提取的特征有所差异。

此外，重要的是要认识到，一个物体的特征不仅仅由一个滤波器负责捕捉，而是由多个滤波器协同工作，每个滤波器从不同的角度或尺度提取信息。随着网络深度的增加，后续的滤波器能够基于前期提取的特征，进一步提取更加抽象和复杂的特征，这样即使物体在图像中占据多个位置，整个网络也能综合这些信息，实现对物体的有效识别和定位。

问：卷积层通过学习一组可训练的滤波器（也称权重或核）这个滤波器的话是基于训练集合提前训练好的吗，能够识别特定场景中物体的特征

答：是的，卷积层中的滤波器（权重或核）是通过在大量标注的训练数据集上进行机器学习过程得到的。这个训练过程涉及以下步骤：

初始化：滤波器的初始权重通常是随机设置的。
前向传播：利用这些初始权重，网络对训练集中的每张图像执行卷积操作，尝试提取特征并做出预测。
损失计算：根据网络预测结果与真实标签之间的差异（损失函数衡量），评估网络的表现。
反向传播：计算损失相对于每个权重的梯度，即权重如何微小地调整能减小损失。这是通过链式法则自动完成的，从输出层反向传播至输入层，包括卷积层的滤波器。
权重更新：根据梯度下降或其他优化算法，按照计算出的梯度调整滤波器的权重，以期望在下一次迭代中做出更准确的预测。

问：卷积神经网络中的多个滤波器会学习到不同的特征是吧

答：卷积神经网络（CNN）中的多个滤波器会学习到不同的特征。每个滤波器都是一个小型的、可学习的权重矩阵，它在输入数据（如图像）上滑动，通过卷积操作来检测特定类型的特征。在训练过程中，网络会自动调整这些滤波器的权重，以便它们能够捕获输入数据中最有用的模式。

早期的滤波器（靠近输入层）往往学习到图像的基本特征，如边缘、线条、色彩变化等。随着网络层级的加深，滤波器会逐渐学习更复杂的、更具语义性的特征，比如纹理、图案、物体的局部结构，乃至更高层次的特征，如物体的特定部件或整个物体本身。

由于每个滤波器独立学习，它们可以专注于识别不同的特征。例如，一个滤波器可能擅长识别圆形结构，而另一个滤波器可能对直边有较强的响应。这种多样性使得网络能够从多个角度理解和表示输入数据，这对于准确分类和识别任务至关重要。

问：比如在人脸识别这一个场景中，不同滤波器会学习到哪些特征

答：在人脸识别的场景中，卷积神经网络中的不同滤波器会学习到一系列从基本到复杂的面部特征，这些特征有助于区分不同的个体。以下是一些典型的特征类型，不同层级的滤波器可能会关注的内容：

低级特征：靠近网络输入层的滤波器通常学习基本的视觉元素，如边缘、线条、颜色变化和纹理基础。在人脸识别中，这可能包括皮肤色调、脸部轮廓边缘、眼睛周围的颜色变化等。
中级特征：随着网络深度增加，滤波器开始学习更复杂的局部特征，如眼睛的形状、眉毛的结构、鼻子的轮廓、嘴巴的形态等。这些特征对于区分不同的面部结构至关重要。
高级特征：在更深的网络层级，滤波器可能会学习到更抽象且具有高度辨别性的特征，如面部部件之间的相对位置、特定的表情特征（如微笑、皱眉）、面部的整体几何形状等。这些特征有助于识别特定个体，即便是在不同光照条件或表情变化下。
Gabor滤波器：在人脸识别领域，特定设计的滤波器如Gabor滤波器，因其能够模拟人类视觉系统的感受野特性，常被用于提取具有方向性和尺度变化的纹理信息。Gabor滤波器能够捕捉到脸部细节的频率和方向信息，对人脸的精细结构非常敏感。
深度特征：在深度学习时代，最后几层的滤波器可能学习到的是高度抽象且难以直观描述的特征，这些特征是经过多层卷积和池化操作后提炼出的，对于区分人脸身份具有极高的效能。

总之，卷积神经网络中不同滤波器通过层层递进的方式，从基本的视觉元素到复杂的面部结构和表情细节，共同构建了一个多层次的特征表示体系，使得系统能够高效且准确地进行人脸识别。

卷积神经网络和神经网络的区别和联系

都属于人工神经网络：卷积神经网络是神经网络的一种特殊类型，它们都属于人工神经网络的范畴。因此，两者在基本原理和结构上有一定的相似性，如都包含神经元、权重和激活函数等。
发展关系：卷积神经网络是在传统神经网络的基础上发展而来的，特别是在处理具有网格结构的数据（如图像、语音等）方面进行了优化和改进。

二、区别

结构不同
- 神经网络：通常具有简单的层次结构，包括输入层、隐藏层和输出层。各层之间的神经元通过权重和偏置相连，形成全连接结构。
- 卷积神经网络：具有更复杂的层次结构，通常包括输入层、卷积层、池化层（也称为下采样层）和全连接层。其中，卷积层和池化层是卷积神经网络特有的结构，用于提取图像等数据的特征。
运算方式不同
- 神经网络：主要使用矩阵乘法进行运算，即前一层的输出与当前层的权重相乘，再加上偏置，最后通过激活函数得到当前层的输出。
- 卷积神经网络：在卷积层中，使用卷积核（也称为滤波器）对输入数据进行卷积运算，提取局部特征。卷积运算具有平移不变性，即无论特征在输入数据的哪个位置，都能被卷积核提取出来。此外，卷积神经网络还使用池化运算来降低特征图的维度，减少计算量并防止过拟合。
应用领域不同
- 神经网络：由于结构相对简单，适用范围较广，可以用于各种类型的数据处理任务，如函数逼近、模式识别、分类和数据压缩等。然而，在处理具有网格结构的数据（如图像、语音等）时，其效果可能不如卷积神经网络。
- 卷积神经网络：专门针对具有网格结构的数据进行优化，因此在图像识别、物体检测、语音识别和自然语言处理等领域具有显著优势。卷积神经网络的局部连接和权重共享机制使得其在处理大规模数据时具有较高的计算效率和较好的泛化能力。
性能表现不同
- 由于卷积神经网络在处理具有网格结构的数据时具有天然优势，因此在这些领域通常能够取得比传统神经网络更好的性能表现。例如，在图像分类任务中，卷积神经网络能够自动提取图像特征并进行分类，而无需像传统神经网络那样需要手动设计特征提取器。
- ![[Pasted image 20240713123407.png]]

传统神经网络和卷积神经网络区别分析

http://t.csdnimg.cn/DXOYt

卷积运算

![[Pasted image 20240714130010.png]]

卷积核大小为3 * 3 ，代表每3 * 3的区域求一个特征，第一个输出层3的计算，rgb三通道对应三个卷积核，每个卷积核（包括三个通道）与对应的区域做卷积运算，三个卷积运算结果相加，最后得到一个特征映射

卷积网络代码及卷积层、池化层实现分析

下面是一个使用Keras（基于TensorFlow后端）编写的简单卷积神经网络（CNN）示例，用于图像分类。在这个例子中，我们将构建一个小型的CNN来处理像MNIST这样的手写数字数据集。该网络包含卷积层、池化层和全连接层。

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense 
# 定义模型 
model = Sequential()
# 添加第一个卷积层 
model.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=(28, 28, 1))) # 添加第一个最大池化层 
model.add(MaxPooling2D(pool_size=(2, 2)))
# 添加第二个卷积层 
model.add(Conv2D(64, kernel_size=(3, 3), activation='relu')) 
# 添加第二个最大池化层
model.add(MaxPooling2D(pool_size=(2, 2)))
# 展平层，将多维输出展平为一维 
model.add(Flatten())
# 添加一个全连接层 
model.add(Dense(128, activation='relu'))
# 输出层，使用softmax激活函数进行多类分类 
model.add(Dense(10, activation='softmax'))
# 编译模型
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
# 打印模型结构 
model.summary()

输入层：input_shape=(28, 28, 1) 表示每个输入图像的尺寸是28x28像素，且由于是灰度图，所以通道数为1。
卷积层 (Conv2D)：使用32个3x3大小的滤波器，激活函数为ReLU，用于学习图像中的局部特征。
池化层 (MaxPooling2D)：使用2x2的窗口进行最大池化，减少空间维度，同时保留最重要的特征。
展平层 (Flatten)：将最后的卷积层输出转换为一维向量，以便输入到全连接层。
全连接层 (Dense)：用于分类前的特征组合，激活函数同样为ReLU。
输出层 (Dense)：具有10个节点（对应MNIST数据集中10个数字类别），使用softmax激活函数进行多分类。

问：kerals可以详细解释一下吗，还有什么叫做TensorFlow后端，那它的前端又指的是什么呢

答：Keras 是一个用于构建和实验深度学习模型的高级API，它可以在 TensorFlow、Microsoft Cognitive Toolkit (CNTK) 或 Theano 上运行。Keras 提供了用户友好的接口，使得定义和训练复杂的神经网络变得更加简单。Keras 的主要优点包括：

模块化和可组合性：Keras 允许你将神经网络看作一系列层的堆叠，每一层都可以单独定义和配置，从而轻松地构建复杂的网络架构。
易于扩展：Keras 提供了丰富的预置层和模型，同时也允许用户自定义层和损失函数，方便实现创新的网络结构或研究算法。
多后端支持：Keras 可以在多个计算后端上运行，最初是基于 Theano，后来加入了 TensorFlow 和 CNTK 的支持。这意味着相同的 Keras 模型可以在不同的后端上无缝运行，增加了模型的移植性和灵活性。

TensorFlow 后端与前端

TensorFlow 是一个由 Google 开发的开源机器学习框架，它提供了从低级到高级的各种 API，可以用于构建和训练各种机器学习模型，包括深度学习模型。TensorFlow 的核心是一个计算图，它可以被优化和部署到各种硬件平台，包括 CPU、GPU 和 TPU。

当 Keras 使用 TensorFlow 作为其后端时，意味着 Keras 定义的模型最终会被转化为 TensorFlow 的计算图并由 TensorFlow 来执行。Keras 在此过程中起到了“前端”的作用，提供了高级的、易于使用的 API，而 TensorFlow 则扮演着“后端”的角色，负责底层的计算和优化。

前端和后端的概念在这里是指 Keras 提供了一个面向用户的、高层次的界面（前端），用户通过这个界面可以轻松地构建复杂的神经网络模型，而不需要关心底层细节。而 TensorFlow 或其他后端（如 Theano、CNTK）则处理这些模型的底层实现和优化，确保它们可以高效地运行（后端）。这种分离设计使得 Keras 成为了一个非常流行的深度学习开发工具，因为它降低了进入深度学习领域的门槛，使开发者可以专注于模型的设计和训练，而不是底层的计算细节。

问：可以理解为keras作为一个前端，用于调用api接口，来训练各种模型，而tensorflow作为后端，用于数据计算，优化等底层逻辑

答：Keras确实充当了“前端”的角色，它提供了一套高级API，使得神经网络的定义、训练和评估变得直观且容易上手。Keras允许开发者以一种更加抽象和模块化的方式思考和构建深度学习模型，不必直接涉及底层的数学运算或图形构建。

TensorFlow作为“后端”，负责处理所有底层的计算逻辑，包括但不限于数据流图的构建、梯度计算、反向传播、自动微分以及硬件加速等。TensorFlow强大的计算能力和优化技术确保了即使是在大规模数据集上的复杂模型也能高效运行。

卷积核中的初始值都是随机的

问：池化计算是基于什么数据呢，是在特征映射层面进行池化操作还是在输入数据中进行池化操作呢

答：池化操作是在卷积神经网络（CNN）的特征映射层面进行的，而不是直接在原始输入数据上进行。池化的目的主要是为了减少特征映射的空间维度，从而降低计算复杂度，减少过拟合的风险，并且强化特征的平移不变性。

在CNN中，池化通常位于一个或多个卷积层之后。当卷积层完成其特征检测任务后，输出一系列的特征映射。每个特征映射代表了卷积层检测到的某种特定特征的分布情况。接下来，池化层会对这些特征映射进行操作。

池化操作通常包括以下步骤：

定义池化窗口：选择一个固定大小的窗口，例如2x2或3x3，这个窗口会在特征映射上滑动。
选择池化类型：常见的池化类型有最大池化（Max Pooling）和平均池化（Average Pooling）。最大池化会选取窗口内最大值作为输出，而平均池化则是计算窗口内所有值的平均。
应用步长：步长决定了池化窗口在特征映射上滑动的距离。如果步长等于池化窗口的大小，那么池化后的特征映射尺寸会减半。
执行池化：在特征映射的每个位置应用池化操作，直到整个特征映射被处理完毕，产生一个新的、较小的特征映射。

通过池化，特征映射的尺寸被压缩，但每个压缩后的单元仍然保留了原特征映射中局部区域的信息精华。这不仅减少了后续层的计算量，还使模型对输入数据的微小变化更加鲁棒，因为最大值或平均值在一定范围内不会因为小的位移而发生大的变化。

简而言之，池化是在CNN的中间层（通常是卷积层之后）对已经提取出的特征映射进行的操作，而不是在原始输入数据上进行的。

如果第一层产生了32个特征映射，那么第二层的卷积核会在这32个特征映射上进行卷积操作，产生新的一组特征映射。每个特征映射是一个二维平面还是一个像素点

答：在卷积神经网络（CNN）中，如果第一层产生了32个特征映射，那么第二层的卷积核确实会在这32个特征映射上进行卷积操作，但是需要注意的是，每个特征映射并不是一个像素点，而是一个二维平面。

具体来说，每个特征映射是一个二维数组，其宽度和高度取决于输入图像的尺寸以及卷积层和池化层的参数（如卷积核大小、步长、填充等）。每个位置（像素）在特征映射中的值，是卷积核在相应输入区域上进行卷积操作的结果，再加上一个偏置项，然后通过激活函数（如ReLU）得到的。

当第二层的卷积核在第一层的32个特征映射上进行卷积时，每个卷积核实际上是在32个特征映射的“深度”上同时滑动。这意味着，一个卷积核会与32个特征映射中的相同位置进行逐元素乘法，然后将结果相加，再加上一个偏置，最后通过激活函数，产生第二层的一个特征映射中的一个像素值。

因此，第二层的每个特征映射仍然是一个二维平面，其深度（通道数）是1，但是宽度和高度可能与第一层的特征映射不同，具体取决于第二层卷积核的参数。这种深度上的卷积操作使得网络能够学习如何组合和重新配置来自前一层的特征，从而形成更复杂和抽象的特征表示。

问：对三颜色通道做一次卷积操作是如何得到三十二个特征向量的呢

答：在卷积神经网络（CNN）中，对RGB图像的三颜色通道进行卷积操作以得到多个特征映射（通常不是特征向量，而是特征图或特征映射），这一过程涉及到多个卷积核的应用。以下是详细的步骤：

卷积核的设计：假设你想要在第一层产生32个特征映射，那么你需要32个不同的卷积核。每个卷积核在三维上定义，包括宽度、高度和深度。对于RGB图像，深度将是3（对应红、绿、蓝三个颜色通道）。
卷积操作：每个卷积核会分别在图像的三个颜色通道上进行卷积操作。具体来说，卷积核会在图像上滑动，每次覆盖图像的一小块区域（大小与卷积核相同），并与这部分区域内的像素值进行逐元素乘法，然后将所有乘法结果相加。这个操作同时在三个颜色通道上进行，所以实际上是一个3D的卷积。
汇总结果：对于每个卷积核，上述操作会产生三个不同的二维结果。然而，这些结果不会被分别保存为三个独立的特征映射，而是将这三个结果相加（或进行逐元素累加），加上一个偏置项，得到一个最终的二维结果。这个结果就是该卷积核产生的一个特征映射。
激活函数：在得到特征映射后，通常会通过一个非线性激活函数（如ReLU）进一步处理，以增加网络的非线性能力。
重复过程：上述过程对所有的32个卷积核重复进行，每个卷积核都会产生一个独立的特征映射。因此，第一层卷积操作结束后，你会得到32个不同的特征映射，每个映射都是由不同的卷积核产生的，反映了图像中不同类型的特征。

总结起来，通过应用32个不同的卷积核，每个卷积核在RGB图像的三个颜色通道上进行卷积操作，然后将结果汇总，你可以得到32个不同的特征映射，每个映射代表了图像中特定特征的检测结果。这些特征映射随后可以被后续的卷积层、池化层或其他层进一步处理，以提取更高级的特征。

问：意思是每个卷积核会分别对三个颜色通道进行处理，最后得到一个特征向量是吗，一个卷积核对于三颜色通道又会有对应的三个通道

答：您的理解非常接近正确，但有一些细节上的澄清可能有助于更好地理解卷积神经网络（CNN）中卷积核的工作原理。

当我们在讨论RGB图像的卷积时，一个卷积核实际上是作为一个3D的结构存在，它的深度与输入图像的颜色通道数相对应，也就是说，对于RGB图像，一个卷积核的深度是3，分别对应红、绿、蓝三个通道。这个卷积核会在图像的三个颜色通道上同时进行卷积操作。

以下是详细的步骤：

卷积核与颜色通道：一个卷积核由3个二维矩阵组成，每个二维矩阵对应图像的一个颜色通道。当进行卷积时，每个二维矩阵会与图像相应颜色通道上的相同大小的区域进行逐元素乘法。
卷积操作：卷积核在图像上滑动，每次覆盖图像上的一小块区域（与卷积核大小相同），在每个位置，卷积核的每个二维矩阵都会与图像相应颜色通道上的区域进行逐元素乘法，然后将三个结果相加。
汇总结果：在每个滑动位置，三个通道的结果相加（汇总），加上一个偏置项，得到一个数值。这个数值就是卷积核在这个位置上的响应强度。
激活函数：得到的数值通常会通过一个激活函数（如ReLU），以引入非线性特性，增强网络的学习能力。
特征映射：卷积核在整个图像上滑动完成之后，会产生一个二维的特征映射，它表示了卷积核所检测的特征在图像上的分布情况。

因此，一个卷积核并不会产生一个特征向量，而是会产生一个特征映射，这是一个二维的矩阵，反映了图像中特定特征的检测结果。如果有32个卷积核，那么就会得到32个不同的特征映射，每个映射都由相应的卷积核在图像的三个颜色通道上进行卷积操作后汇总而成。这些特征映射构成了下一层输入的基础，可以被进一步处理以提取更高级的特征。

卷积网络中的激活函数怎么选

答：在卷积神经网络（CNN）中，选择合适的激活函数对于模型的性能至关重要。激活函数为网络引入了非线性，使得网络能够学习和表示复杂的函数映射。以下是几种常见的激活函数以及在CNN中选择它们的考量：

ReLU（Rectified Linear Unit）
- ReLU是最常用的激活函数之一，其数学形式为f(x) = max(0, x)。它的好处在于计算简单，能够有效缓解梯度消失问题，加速训练过程。ReLU在正数区间导数恒为1，这有利于梯度的传播。然而，ReLU也有缺点，比如死区问题（Dead Neurons），即当输入为负数时，神经元输出为零，梯度也为零，这可能导致神经元永久“死亡”。
Leaky ReLU
- Leaky ReLU是ReLU的一个变种，它试图解决死区问题。其数学形式为f(x) = max(αx, x)，其中α是一个小的正数（如0.01）。这使得当输入为负数时，神经元仍然有非零的梯度，从而避免了死区现象。
Parametric ReLU (PReLU)
- PReLU是Leaky ReLU的参数化版本，其中α参数可以通过训练自动学习。这使得模型能够自适应地调整负区间的斜率，有时能带来更好的性能。
ELU (Exponential Linear Units)
- ELU在负数区间使用指数函数，这有助于保持模型的平均输出接近于零，理论上可以加速训练。ELU的缺点是计算成本略高，因为它涉及指数运算。
Sigmoid
- Sigmoid函数在早期的神经网络中较为常见，但在CNN中使用较少。其数学形式为f(x) = 1 / (1 + e^(-x))。Sigmoid函数的问题在于容易导致梯度消失，特别是在输入绝对值较大的情况下，梯度接近于零，这会影响深层网络的训练。
tanh (Hyperbolic Tangent)
- tanh函数类似于Sigmoid，但其输出范围是-1到1，理论上可以更好地利用神经元的动态范围。然而，tanh同样存在梯度消失问题。

不以物喜a

关注

14
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
卷积神经网络--基本知识问答

当我们在讨论RGB图像的卷积时，一个卷积核实际上是作为一个3D的结构存在，它的深度与输入图像的颜色通道数相对应，也就是说，对于RGB图像，一个卷积核的深度是3，分别对应红、绿、蓝三个通道。这个卷积核会在图像的三个颜色通道上同时进行卷积操作。卷积核与颜色通道：一个卷积核由3个二维矩阵组成，每个二维矩阵对应图像的一个颜色通道。
复制链接

扫一扫

专栏目录