详解深度学习中模型提取的特征图在模型中传递的形式(第3种解释)

本文链接：https://blog.csdn.net/qq_23865133/article/details/136485502

在深度学习中，图像分割和分类任务通常依赖于一个称为“backbone”的卷积神经网络（CNN）来提取图像的特征。这些特征图（Feature Maps）是通过卷积层、激活层、池化层等一系列层次的处理过程在网络中以张量（Tensor）的形式传递的

张量（Tensor）的概念

张量是一个数学或物理实体，广泛应用于深度学习中，表示数据的一种高维形式。在深度学习框架中（如TensorFlow或PyTorch），张量是基本的数据单位，可用来表示输入数据、模型的参数（如权重和偏置），以及中间层次的特征图。张量可以有多个维度，比如一个2维张量可以表示矩阵，一个3维张量可以用来表示一系列的图像，其中每一维分别代表图像的高度、宽度和颜色通道

特征图在Backbone中的传递

在进行图像分割或分类时，原始图像首先被转换成一个张量，其维度通常是[Batch Size, Channels, Height, Width]，其中“Batch Size”表示一次处理的图像数量，“Channels”表示颜色通道数（例如，对于RGB图像是3），“Height”和“Width”分别代表图像的高度和宽度

这个输入张量随后被送入backbone网络。在网络的各个卷积层，通过应用一系列的过滤器（或称为卷积核）进行特征提取。每个过滤器都会在输入图像上滑动，计算过滤器与图像局部的点乘（dot product），从而产生新的特征图。随着数据通过网络的不同层，这些特征图的尺寸可能会因为卷积操作、池化操作而发生变化，但它们始终以张量的形式存在

在特征提取过程中，激活函数（如ReLU）被应用于卷积操作的结果，以引入非线性，帮助网络学习复杂的模式。池化层（如最大池化）则用于降低特征图的空间维度，减少计算量，同时保留重要的特征信息

对于图像分类任务，backbone网络最终会通过全连接层（或称为密集层）输出一个向量，表示不同类别的预测概率。而对于图像分割任务，特征图经过一系列上采样（或反卷积）操作和卷积操作，将特征图尺寸恢复至与输入图像相同或相似的尺寸，最终输出每个像素的类别预测。