自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 实时语义分割学习笔记07 Bilateral Network:剩余U块和双重引导注意的双边网络

首先使用并行结构从高分辨率下采样1/8图像分辨率的输出特征图,分辨率分支通过一个3×3的卷积层被放大到其自身大小的一半,并通过线性插值将来自低分辨率分支的1/16图像分辨率的特征图上采样到其自身的两倍。我们将在后面介绍GA的技术细节,但我们需要知道的是,GA的输出与具有相同分辨率的分支的输出具有相同的通道数。因此,我们直接将GA的输出与每个分支的输出在相应的分辨率上相加,实现一个残差结构,最后对低分辨率的特征图进行两次上采样,并与高分辨率的特征图拼接,然后将最终的特征图送入分割头,得到分割预测。

2024-01-09 22:05:01 839

原创 实时语义分割学习笔记06 RTFormer:基于Transformer的高效实时语义分割设计

然而,由于其庞大的骨干和非常高的分辨率,难以用于实时分割任务。但是在需要考虑GPU类设备上的延迟的情况下,传统的FFN结构效率不高,为了平衡性能和效率,我们在RTFormer模块的FFN中采用了两个3 × 3卷积层,没有进行维数扩展,比传统的FFN结构有更好的效果。GDN表示分组双重归一化,它将原来双重归一化的第二次归一化拆分成H组,如图3左下部分所示,从公式3中我们可以发现GFA有两个主要的改进,一方面,它使得矩阵乘法被集成,这对于类GPU设备来说相当友好,受益于此我们可以将外部参数的大小从。

2024-01-08 21:53:34 1137 1

原创 实时语义分割学习笔记05 SFNet

作者认为,虽然空洞卷积能够很好的保持空间细节。但是,不可避免地需要密集的额外计算,因为最后几层的特征图可以达到FCN中的特征图的64倍。如:ResNet-18作为骨干网络的FCN对于1024 × 2048图像的帧速率为57.2 FPS,在对网络应用atrous卷积后,修改后的网络仅具有8.7 FPS的帧速率。a. 当时的一些解决办法,设计一个网络结构,类似于 FPN,其中包含横向路径(lateral connections),以便从深层特征图传播信息到浅层特征图。

2024-01-04 20:49:23 1183 1

原创 实时语义分割学习笔记04 HardNet:一种低内存流量网络

神经网络研究中,为了解决梯度消失的问题,Highway Networks 和 Residual Networks等引入了捷径技术(跳连接或者说残差连接),将所有前面的层级连接起来,实现了更有效的深度监督。由于作者已经平衡了每一层的输入和输出之间的通道比例,这种瓶颈层的效果变得微不足道。为了减轻退化,作者将深度为L的HDB的输出设置为层L和所有其前面的奇数层(具有k个输出通道的最不显著层)的连接。如,在固定的CIO下,将卷积层的输入和输出之间的通道比从1:1逐步改变到1:100,会导致MAC和延迟的减少。

2023-12-28 23:08:59 1090

原创 实时语义分割学习笔记03 BiSeNet: 双分支网络

空间容量的大小直接影响图像的数据量和处理复杂性。然而,这种方法的缺点也是显而易见的:由于 ENet 放弃了最后阶段的下采样操作,模型的感受野不足以覆盖大型物体,导致分辨能力较差。语义分割任务中,卷积神经网络(CNN)通过连续的下采样操作对高层次的语义信息进行编码, 这样一来不不可避免的丢失空间中的上下文信息。作者提到,使用U形结构的方法,包括原始的FCN网络、使用反卷积层的U形结构、U-net引入的有用的跳跃连接网络结构、Global Convolution Network将U形结构与大核卷积结合使用等。

2023-12-27 23:06:54 1771

原创 实时语义分割学习笔记02 FFRN

这在检测,分割任务中十分有用。全连接条件随机场(Fully Connected CRF),即图像中每个像素都与其他所有像素相关,为每个像素对都建立 pairwise potential(二元势函数),但是问题在于,连接数量是像素数量的平方级别,这就导致了即使是很小的一幅图像,计算复杂度都会非常大,从而实用性不高。2、显式控制网络的感受野大小: VGG-16网的情况下,其感受野为224×224(零填充)和404×404像素,将网络转换为完全卷积网络后,第一个全连接层具有4,096个7×7大空间尺寸的过滤器。

2023-12-06 22:33:35 824 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除