m0_52679259-CSDN博客

原创实时语义分割学习笔记07 Bilateral Network：剩余U块和双重引导注意的双边网络

首先使用并行结构从高分辨率下采样1/8图像分辨率的输出特征图，分辨率分支通过一个3×3的卷积层被放大到其自身大小的一半，并通过线性插值将来自低分辨率分支的1/16图像分辨率的特征图上采样到其自身的两倍。我们将在后面介绍GA的技术细节，但我们需要知道的是，GA的输出与具有相同分辨率的分支的输出具有相同的通道数。因此，我们直接将GA的输出与每个分支的输出在相应的分辨率上相加，实现一个残差结构，最后对低分辨率的特征图进行两次上采样，并与高分辨率的特征图拼接，然后将最终的特征图送入分割头，得到分割预测。

2024-01-09 22:05:01 970

原创实时语义分割学习笔记06 RTFormer：基于Transformer的高效实时语义分割设计

然而，由于其庞大的骨干和非常高的分辨率，难以用于实时分割任务。但是在需要考虑GPU类设备上的延迟的情况下，传统的FFN结构效率不高，为了平衡性能和效率，我们在RTFormer模块的FFN中采用了两个3 × 3卷积层，没有进行维数扩展，比传统的FFN结构有更好的效果。GDN表示分组双重归一化，它将原来双重归一化的第二次归一化拆分成H组，如图3左下部分所示，从公式3中我们可以发现GFA有两个主要的改进，一方面，它使得矩阵乘法被集成，这对于类GPU设备来说相当友好，受益于此我们可以将外部参数的大小从。

2024-01-08 21:53:34 1293 1

原创实时语义分割学习笔记05 SFNet

作者认为，虽然空洞卷积能够很好的保持空间细节。但是，不可避免地需要密集的额外计算，因为最后几层的特征图可以达到FCN中的特征图的64倍。如：ResNet-18作为骨干网络的FCN对于1024 × 2048图像的帧速率为57.2 FPS，在对网络应用atrous卷积后，修改后的网络仅具有8.7 FPS的帧速率。a. 当时的一些解决办法，设计一个网络结构，类似于 FPN，其中包含横向路径（lateral connections），以便从深层特征图传播信息到浅层特征图。

2024-01-04 20:49:23 1467 1

原创实时语义分割学习笔记04 HardNet：一种低内存流量网络

神经网络研究中，为了解决梯度消失的问题，Highway Networks 和 Residual Networks等引入了捷径技术（跳连接或者说残差连接），将所有前面的层级连接起来，实现了更有效的深度监督。由于作者已经平衡了每一层的输入和输出之间的通道比例，这种瓶颈层的效果变得微不足道。为了减轻退化，作者将深度为L的HDB的输出设置为层L和所有其前面的奇数层（具有k个输出通道的最不显著层）的连接。如，在固定的CIO下，将卷积层的输入和输出之间的通道比从1：1逐步改变到1：100，会导致MAC和延迟的减少。

2023-12-28 23:08:59 1346 1

原创实时语义分割学习笔记03 BiSeNet: 双分支网络

空间容量的大小直接影响图像的数据量和处理复杂性。然而，这种方法的缺点也是显而易见的：由于 ENet 放弃了最后阶段的下采样操作，模型的感受野不足以覆盖大型物体，导致分辨能力较差。语义分割任务中，卷积神经网络（CNN）通过连续的下采样操作对高层次的语义信息进行编码，这样一来不不可避免的丢失空间中的上下文信息。作者提到，使用U形结构的方法，包括原始的FCN网络、使用反卷积层的U形结构、U-net引入的有用的跳跃连接网络结构、Global Convolution Network将U形结构与大核卷积结合使用等。

2023-12-27 23:06:54 3296 1

原创实时语义分割学习笔记02 FFRN

这在检测，分割任务中十分有用。全连接条件随机场（Fully Connected CRF），即图像中每个像素都与其他所有像素相关，为每个像素对都建立 pairwise potential（二元势函数），但是问题在于，连接数量是像素数量的平方级别，这就导致了即使是很小的一幅图像，计算复杂度都会非常大，从而实用性不高。2、显式控制网络的感受野大小： VGG-16网的情况下，其感受野为224×224（零填充）和404×404像素，将网络转换为完全卷积网络后，第一个全连接层具有4，096个7×7大空间尺寸的过滤器。

2023-12-06 22:33:35 883 1