#HAFormer

融合 CNN 与 Transformer 的高效轻量级语义分割模型

HAFormer以最小的计算开销和紧凑的模型尺寸实现了高性能,在Cityscapes上的mIoU达到了74.2%,在CamVid测试数据集上的mIoU达到了71.1%,在单个2080Ti GPU上的帧率分别为10SFPS和118FPS。

在语义分割任务中,卷积神经网络(CNNs)和Transformer都表现出了巨大的成功。人们已经尝试将CNN与Transformer模型集成在一起,以捕捉局部和全局上下文交互。然而,在考虑计算资源限制时,仍有提升的空间。


在本文中,作者介绍了HAFormer模型,该模型结合了CNN的分层特征提取能力与Transformer的全局依赖建模能力,以应对轻量级语义分割挑战。具体来说,作者设计了一个分层感知像素激活(HAPE)模块,用于自适应多尺度局部特征提取。在全局感知建模过程中,作者设计了一个高效Transformer(ET)模块,简化了传统Transformer中的二次计算。此外,一个相关性加权融合(cwF)模块有选择地合并不同的特征表示,显著提高了预测准确性。HAFormer以最小的计算开销和紧凑的模型尺寸实现了高性能,在Cityscapes上的mIoU达到了74.2%,在CamVid测试数据集上的mIoU达到了71.1%,在单个2080Ti GPU上的帧率分别为10SFPS和118FPS。


源代码可在https://github.com/XU-GITHUB-curry/HAFormer获取。

I Introduction

语义分割涉及给给定图像中的每个像素分配标签的任务,这是计算机视觉中的基本密集预测任务,应用于自动驾驶[1],医疗保健[2],卫星遥感[3]等领域。先前的方法,如[4, 5],利用深度卷积神经网络(CNN)进行特征提取,结合特征金字塔结构以感知多尺度信息[6],以及注意力模块以感知全局上下文[7, 8, 9]。尽管这些方法已经取得了相当的准确度,但它们通常需要大量的计算资源,并且由于较深的网络堆叠以获得更大的感受野和更高的语义层次,其推理速度相对较慢。

为了适应计算资源有限的设备,最近的研究专注于开发轻量级的分割模型。例如,ERFNet[11]采用一维非瓶 Neck 减少计算量,而ICNet[13]利用不同分辨率的输入增强不同分支之间的信息流动。FBSNet[15]使用对称的编码器-解码器结构,带有空间细节分支和语义信息分支以细化上下文细节。通常,这些模型简化了基本模块结构以最小化计算成本。然而,在提高计算效率的同时,由于其局部限制和网络深度较浅,它们的分割准确度往往受到影响。

最近,Transformer 在计算机视觉社区中取得了显著的成功。受到这一进展的启发,研究行人开始将ViT[18]架构整合到解决语义分割挑战中。与CNN不同,Transformer 通过其广泛的全球注意力机制内在地提供了广阔的全局感受野。使用Transformer作为图像编码器的模型在全球上下文建模方面表现出色,与基于CNN的方法相比,在分割准确度上有了显著的提升。尽管UNETR[19]和其他方法[20, 21]基于Transformer编码器的最后一层进行预测,但它们往往忽略了图像中的较小尺度目标,影响了较小元素或像素的精确分类,如图1所示。SegFormer[22]引入了一个分层注意力模型,结合分层 Transformer编码器和轻量级多层感知机(MLP)解码器以增强分割精度。MPViT[23]有效地将多尺度特征输入整合到Transformer操作中,取得了令人印象深刻的结果。

51c视觉~合集1_卷积

这些方法优先考虑高的分割准确度,但常常忽视模型效率。首先,基于Transformer的方法缺乏归纳偏置,使得其训练缓慢且难以收敛。此外,它们通常需要更大的数据集和更长的训练时间,导致训练开销巨大。其次,由于多头自注意力(MHSA)操作耗时,导致推理速度变慢。随着高分辨率输入的计算负担加剧,尤其是MHSA的二次复杂度。此外,由于它们有限的精细局部建模能力,这些方法在捕捉细节和小目标方面可能存在困难。

在这项工作中,作者的目标是开发一个轻量级的语义分割模型,该模型同时利用CNN和Transformer,专注于最小化模型大小和计算需求。作者推出“HAFormer”模型,将Transformer的全局感受能力与 CNN 的局部感知优势结合起来,释放分层感知特征的力量。

本文的核心贡献有三方面:

  • 作者提出了一种新颖的分层感知像素激活(HAPE)模块,利用分层和内容感知注意力机制来减少计算负担,同时从各种感受野下的像素中提取更深的语义信息。
  • 作者开发了一种有效的特征融合机制,名为相关加权融合(cwF),以协同整合由CNN和Transformer学习的局部和全局上下文特征,有效提高准确度。
  • 作者提出了一种有效的Transformer,分解,和矩阵,有效地解决了传统Transformer模型中的二次计算复杂性挑战。

在两个广泛使用的基准上进行的广泛实验表明,作者的HAFormer在分割准确度和效率之间取得了平衡。

本文的其余部分结构如下:第二节全面回顾了相关工作。第三节详细介绍了作者提出的HAFormer,重点关注其三个关键组成部分。第四节描述了详细的实验设置并呈现了评估结果,包括消融研究和讨论。最后,第五节通过总结关键发现和讨论未来方向来结束论文。

II Related Work

Hierarchical Methods in Semantic Segmentation

在密集预测任务中,准确分类多尺度和小目标目标是一个普遍的挑战。这在语义分割中尤为明显,其中小目标的分类可能会受到邻近较大目标的影响,导致误分类。分层方法通过使用不同膨胀率的卷积或不同速率的池化层有效地解决了这一挑战。然后将这些结果级联或连接起来,以整合来自不同尺度的信息。这种多尺度整合增强了感受野 Level ,减轻了来自不同局部区域大小的模糊性,并提高了目标细节处理能力。现有的分层方法可以分为整体分层结构或特定分层模块,总结如下:

分层结构。 一些方法采用了多尺度设计,具有处理不同分辨率输入或特征图的独特网络分支。遵循此方法的著名方法是ICNet[13],它融合了三个编码分支(低分辨率、中分辨率和高分辨率),各自擅长在不同尺度上提取细粒度信息,以增强输出中的边界信息。相比之下,HRFormer[24]有效结合了健壮的语义信息与精确的位置细节。而HSSN[26]是一种分层方法,它专注于分类如“人-骑车者-自行车”之类的目标,而不是解决小目标在像素级分类的挑战。其他方法,包括,通过并行多个分辨率分支并促进它们之间的连续信息交互,利用多尺度结构。

分层模块。 众多方法在架构的特定层中集成了分层模块,允许在特征图上使用不同的感受野。例如,在DeepLab[28, 29]和DenseASPP[6]中使用的ASPP模块,通过带孔卷积有效地从不同尺度提取特征,解决图像内外的目标尺度变化问题。PSPNet[30]因其金字塔池化模块而出众,该模块从四个尺度整合特征。通过从不同尺度收集和合并上下文信息,该模块生成了比仅全局池化更具有代表性和区分性的特征。使用此模块的模型可以增强对各种大小目标的识别能力。受到“更宽”模块[30, 31]的启发,在本研究中,作者证明利用多个不同的卷积核有效地增强了表达性,以最小的计算和参数开销提高了性能。

Vision Transformer in Semantic Segmentation

开创性的ViT [18] 为图像识别引入了一个纯粹的 Transformer 框架,将图像视为通过多层处理的图像块序列。后续模型如DeiT [32]、Fact [33]、CrossFormer [34] 和 DViT [35] 在图像处理任务上进一步取得了卓越表现。SETR [16] 是一种为分割定制的范式,它在编码器中使用纯Transformer模型,并搭配不同的CNN解码器组合,以实现最先进的结果。Swin-Transformer [17] 解决了冗余计算的问题,在一定程度上减轻了计算负担。然而,这些方法仍然需要大量的训练数据来匹配CNN的性能,这在需要详细标注的密集预测领域提出了挑战。基于Transformer的模型如 [23, 27] 已经认识到在密集预测任务中分层感知的重要性,并在其设计中融入了多尺度结构和金字塔模块。

近期研究注意到,Transformer通常会优先考虑全局长距离依赖关系,可能忽视了CNN所特有的局部连接和位移不变性等关键特征。因此,各种方法 [2, 36, 37, 38] 试图结合CNN和Transformer的优势。然而,这些努力在实时推理需求和低延迟能力之间难以平衡。轻量级技术如LETNet [39] 将Transformer定位为胶囊网络,而像TopFormer [40] 这样的方法则在解码器中将它作为一个辅助组件来增强边界恢复。尽管如此,有效结合全局和局部信息的确切解决方案仍然难以捉摸。

为了解决在结合CNN和Transformer时的高计算需求以及有效整合局部信息与全局背景的挑战,作者的HAFormer引入了高效Transformer (ET) 模块来管理计算复杂度,并提出了一个相关性加权融合(cwF)机制来调和来自CNN和Transformer的特征。

Attention Mechanisms in Semantic Segmentation

受到人类视觉感知的聚焦特性的启发,注意力机制强调显著特征,同时忽略不相关的特征。这些机制主要分为两类:通道注意力与空间注意力。在通道注意力方法中,SKNet [41]使神经元能够根据输入尺度动态调整其感受野大小。空间注意力方法,如非局部神经网络 [8],在语义分割中捕捉长距离依赖关系。然而,对所有位置之间的关系进行建模可能计算成本很高。非对称非局部神经网络 [9]试图减少计算成本,但它们仍然可能需要大量资源,特别是在处理高分辨率输入特征时。

研究者们已经探索了结合通道和空间注意力机制来从多个角度增强特征。例如,CBAM [7] 依次沿着两个独立维度(通道和空间)操作,生成注意力图,然后将这些注意力图与输入特征相乘以进行自适应特征优化。DANet [4] 和 CCNet [42] 并行整合通道和空间注意力,使用自注意力操作并将生成的特征结合起来。CAA [43] 解构了轴向注意力并整合了通道注意力以管理冲突并优先考虑特征。这些利用自注意力机制的方法已经显示出积极的结果。

一个普遍的挑战涉及到像素级的远距离建模,这会带来高昂的计算成本,使得它不适合在资源受限的情况下部署。本研究引入了一种轻量级模型,该模型优化了CNN的局部感知能力和Transformers的全局建模能力。作者通过在作者的提出的Efficient Transformer(ET)模块中使用空间缩减-线性投影和分割操作策略来处理计算复杂性问题。

III The Proposed Method

Overall Architecture

作者的HAFormer的整体架构如图2所示,该架构包括三个组件:一个带有层次感知像素激活增强的CNN编码器,一个高效的Transformer编码器,以及一个轻量级的解码器。

51c视觉~合集1_编码器_02

对于一个给定的输入图像 , 其尺寸为 , 模型首先使用 CNN编码器, 生成特征  。同时, 输入  在经过Transformer茎块处理后, 进入Transformer编码器, 得到特征嵌入 , 其中  表示标记数量,  表示每个标记的维度,  表示标记大小。随后, 作者新设计的相关性加权融合(cwF)模块有效地将这两种不同类型的上下文特征  和  协同起来。这种相关 CNN和Transformer特征的融合增强了边界信息与轻量级解码器分割头的恢复。

具体来说, 为了优化  编码器, 作者在  茎块中使用了三个  卷积层。在这种配置中, 最后一层具有 2 的步长, 从而得到特征图大小为 , 其中  表示输出通道数。相比之下, Transformer编码器中的Transformer茎块在提取特征表示的同时降低分辨率, 通过最小化计算负载, 为模型的轻量级设计做出贡献, 因为更高的分辨率意味着更多的计算。因此, 在Transformer茎块中, 作者使用了四个  卷积层, 步长为 2 , 得到输出特征大小为  。

Hierarchy-Aware Pixel-Excitation (HAPE) Module

采用同一层内具有不同 Kernel 大小的卷积,结合像素激活,有助于从不同大小的目标中提取特征。基于这一概念,并借鉴了如[30, 44]等作品,作者采用了多尺度策略来捕获不同感受野 Level 的独特像素特征。与ESPNet [12]中的逐层合并和Inception [45]中的拼接不同,作者的模块避免了冗余计算,在保持特征有效性的同时,使得网络更加精简。此外,为了进一步改善不同尺度上的像素表示,作者在本研究中引入了创新的层次感知像素激活(HAPE)模块。该模块增强了模型有效识别图像中各种大小目标的能力,最终降低了像素误分类率。

具体来说, 如图3所示, 给定一个特征输入 , 作者首先将其输入到一个 卷积层, 将其通道维度减少到 , 即输出特征图  表示为

51c视觉~合集1_卷积_03

51c视觉~合集1_数据集_04

这里,  表示一个 Kernel 大小为  的卷积操作。这种维度减少便于后续层次卷积层中的通道操作。

随后,作者执行四个并行的卷积操作,包括分解卷积和深度可分离卷积, Kernel 大小分别为3、3、5和7。此外,最后三个卷积层使用膨胀卷积来增强感受野,如图4所示。这一策略使得模型能够捕捉到跨各种尺度的图像特征,确保了全面和详细的信息提取。

51c视觉~合集1_编码器_05

上述过程可以表示为

51c视觉~合集1_数据集_06

其中  表示中间特征,  是一个核大小为  的1-D卷积操作,  表示膨胀率。为了简单起见, 方程中省略了一些激活和批量归一化操作。

一个关键元素在于像素激发模块(PEM), 它通过一种内容感知的空间注意力机制负责增强特征的表现力。如图3所示, 该过程首先将输入  送入全局平均池化 (GAP) 层, 生成  。随后, 对其进行 Reshape 和平展操作, 然后输入到 Softmax 函数中计算权重矩阵  。这个权重矩阵随后与输入特征相乘, 得到一个内容感知的注意力增强输出  。

这个过程可以表示为

51c视觉~合集1_卷积_07

以及

51c视觉~合集1_编码器_08

这里, Reshape 和 Reshape  分别表示 Reshape 操作及其逆操作,  是一个激活函数,  表示逐元素乘法。

最后, 采用残差结构保留原始特征, 得到最终输出  。四个卷积层被联合添加到一个  卷积中用于特征融合和通道恢复。模块内保持残差连接, 通道混洗操作有效地促进了通道间的信息交互, 表达为

其中 ,

其中 Shuffle 表示通道混洗操作, 而  是一个激活函数。

Efficient Transformer

传统的Transformer方法,如文献[17, 46]所示,对于轻量级和实时模型可能过大,尤其是在处理高分辨率输入时。这凸显了更高效Transformer的迫切需求。受文献[31, 47]的启发,作者的方法着重于在不显著损失图像细节的情况下,通过减少特征维度来降低计算成本。为此,作者引入了一种空间缩减线性投影方法,该方法首先将特征映射到一个具有降低维度的潜在嵌入空间,然后再用于多头自注意力计算。这种方法称为带有学习投影和分割操作的高效多头自注意力(eMHSA),如图5所示。

51c视觉~合集1_数据集_09

将输入特征表示为 , 其中 、 和  分别表示特征图中的通道数、高度和宽度。在 Reshape 操作之后, 得到一系列扁平的非重叠 Patch, 结果是 ,其中  表示 Patch 数(即输入序列长度), 每个 Patch 大小为  。随后, 这些 Patch 通过一个可学习的线性投影层  映射到一个潜在  维嵌入空间, 记作  。这个过程可以表示为

51c视觉~合集1_编码器_10

其中  表示第  个 Patch。请注意, 故意省略位置嵌入是为了允许不同输入大小更大的适应性。

随后, Transformers中的三个矩阵, 即 Query  、键  和值 , 通过它们的线性投影  、  和  得到。这可以表示为

51c视觉~合集1_编码器_11

此外, 多头自注意力中的头数  也是一个用户定义的参数, 确保每个头的维度等于  。此, 第  个头中的 、 和  的维度为  。在第  个头中,  和  通过一个因子  进行空间缩减,其中  是缩减比, 设置为 2 。然后, 由特征分裂操作产生的子标记与仅代表原始感知  的字段进行矩阵乘法, 其中  表示特征分裂的次数, 设置为 4 。这个过程可以描述为

51c视觉~合集1_编码器_12

因此, 空间分布变为 , 以及  。这个想法与组卷积的概念相似, 可以有效地减少内存消耗。因此, 第  个头中的自注意力计算为

51c视觉~合集1_卷积_13

以及

51c视觉~合集1_编码器_14

其中Concat .表示连接操作。

因此, eMHSA的最终输出表示为

51c视觉~合集1_数据集_15

其中  表示  中的头数, 而  作为一个线性投影来恢复维度。因此, 通过上述结构设计, 作者已经将复杂性从  降低到  。

值得注意的是,Transformer系列[16, 17, 23]也使用了一种自注意力机制,包括多头注意力。然而,它们的方法在捕捉特征间详细关系方面计算密集,这与作者的目标不符。

在MLP层中, 作者遵循文献[31,48] 中描述的方法, 用零填充位置编码替换固定大小的位置编码。此外, 作者在全连接(FC)层和前馈网络中的GELU之间引入了填充大小为 1 的深度卷积, 以捕获输入张量中的局部连续性。通过消除固定大小的位置嵌入, 模型在处理不同分辨率的输入时变得更加灵活。因此, 高效的MLP层的输出, 记作“  ”, 可以写成

其中  表示FC层操作,  代表GELU激活函数,  表示深度卷积,  是 eMLP 的输入。

Correlation-weighted Fusion

许多研究,如[2, 36, 40, 46],探讨了将Transformers和CNNs的特征整合在一起。例如,SegTransConv [36]提出了一种混合架构,串行和并行结合了Transformers和CNNs,但并未完全发挥两者的协同潜力。鉴于Transformers和CNNs在特征和计算机制上的明显差异,传统的逐元素加法或拼接操作可能不会产生最佳结果。因此,利用两者的互补优势对于提高提取特征的表现力以及解码过程中信息恢复至关重要。

在本文中,作者提出了一种有效策略来弥合这一差距。作者的方法通过相关加权整合无缝结合了由Transformers和CNNs提取的不同类型的特征。通过融合具有高相关性的CNN和Transformer特征,作者开发了一个新的相关加权融合(cwF)模块。

如图6所示,  和  分别表示来自Transformer和CNN的中介特征。首先, 将Transformer特征  Reshape 以匹配CNN特征  的相同形状, 然后进行这两个特征集的后拼接操作。为了降低计算成本, 采用深度可分离卷积进行通道维度降低。在全局平均池化(GAP)和Sigmoid操作之后, 计算表示为  的相关系数矩阵。然后将该矩阵与原始特征相乘得到  和 , 两者相加得到最终输出  。

51c视觉~合集1_编码器_16

这个过程可以表示为

51c视觉~合集1_卷积_17

其中 , Concat表示拼接操作,  表示大小为  的特征图被恢复到大小  。然后, 相关系数矩阵  可以计算为

51c视觉~合集1_编码器_18

其中  是Sigmoid函数,  表示全局平均池化操作,  表示具有 核大小的卷积操作。

因此, 结果cwF特征, 表示为 , 可以表示为

51c视觉~合集1_卷积_19

其中  是ReLU激活函数,  表示逐元素乘法。

值得注意的是,特征相关性也在CTCNet [38]中得到了探索,其中计算了来自Transformers和CNNs的特征之间的相关性。然而,在CTCNet中,该模块只是将相关性拼接在Transformer和CNN特征之后,这不能有效地对齐这两种类型的特征,可能导致由于特征不匹配而性能下降。

IV Experiments

为了定性和定量地展示作者的HAFormer及其各个模块的有效性,作者在基准数据集上进行了比较实验,并与现有最佳(SOTA)方法进行了比较。在本节中,作者首先概述了实验中所使用的数据集、损失函数、硬件平台配置和参数设置。然后,作者介绍了为验证各个模块有效性而进行的一系列消融实验。最后,进行了比较实验,以展示作者方法相对于SOTA方法的优越性。

Datasets

作者的HAFormer模型旨在解决街道场景中与尺度变化和上下文信息相关的挑战。Cityscapes [49] 和 CamVid [50] 数据集是街道场景分割研究中广泛使用的两个主要基准。因此,为了展示作者模型的效能,作者在这两个数据集上进行了系列的全面实证评估。

Cityscapes. 这个数据集包含5,000张高质量图像,这些图像在像素 Level 进行了标注。这些图像来自50个城市中的不同城市环境,分辨率为,主要描绘的是驾驶场景。数据集分为三个子集:2,975张用于训练,500张用于验证,1,525张用于测试。尽管数据集包括了34个类别的标签,但作者的研究特别关注19个基本语义类别。作者使用Cityscapes内置的工具调整标签以适应作者的研究需求。

CamVid. 这是剑桥大学发布的公共城市道路场景数据集。这些图像从驾驶视角捕捉,分辨率为,增加了观察目标的多样性。该数据集包含超过700张标注图像,适用于监督学习。CamVid数据集通常采用11个常见类别来评估分割准确性。这些类别全面代表了城市道路场景中的目标,使它们成为宝贵的研究资源。

8.1 该架构从零开始训练,不使用任何预训练模型。作者采用动量为0.9,权重衰减为的随机梯度下降(SGD),并使用“Poly”学习率策略进行优化。

对于Cityscapes, 初始学习率为 , 批量大小设置为 5 以最大化GPU内存使用。对于 CamVid, 初始学习率为 , 批量大小为 8 。按照现有做法, 作者应用数据增强技术, 包括水平翻转、随机缩放和随机裁剪, 以引入训练数据的多样性, 随机缩放比例从0.25到2.0, Cityscapes的裁剪大小为 , 持续1,000个周期。为了公平比较, 不进行后处理。

最后,按照现有做法,通过所有类别的平均交并比(mIoU)对性能进行定量评估,同时考虑参数数量、FLOPs、GPU使用和处理速度。

Ablation Studies

在本部分中,作者进行了一系列消融实验,以验证方法中每个模块的有效性。

HAPE模块的消融研究。

在作者的HAPE模块(见第三节-B)中,作者提出了四种并行的卷积操作,以全面捕捉不同层次上的图像特征。这之后是PEM,通过一种内容感知的空间注意力机制来增强特征表示能力。在本节中,作者分别展示了作者HAPE模块中的层次方法(记为“HM”)和PEM方法的有效性。

用于比较的 Baseline 模型结构为单线型(如图7所示),包含了标准的残差模块(RMs)。为了展示HM和PEM带来的性能提升,作者首先用HM模块替换 Baseline 模型的RM,省略PEM部分,然后包括HM和PEM模块以测试整个HAPE模块的有效性。

51c视觉~合集1_数据集_20

表1突显了HM的优越性能,相较于RM,mIoU分别提高了1.47%和1.53%。HM在提取健壮特征方面表现出色,有效地促进深层语义信息的提取。此外,多尺度结构显著增强了模型在特征提取和小目标识别方面的性能。引入PEM进一步将两个数据集上的分割精度分别提高了2.13%和2.74%。

51c视觉~合集1_数据集_21

在整个实验中,HM和HAPE中的膨胀卷积率均设置为1,以确保公平比较。图8还验证了将HAPE模块与Transformer模块集成时的有效性。

51c视觉~合集1_卷积_22

膨胀率的消融研究。 在本节中,作者探讨了选择的膨胀率如何影响分割性能。在模块数量保持一致的情况下,较大的膨胀率扩大了感受野,使模型能够感知更广泛的范围,因此对于全面特征提取至关重要。

表2显示的结果表明,将膨胀卷积中的膨胀率从全部1变为全部2(前两行)可以提高mIoU约0.5%。进一步地,通过在第二和第三阶段逐步增加膨胀卷积率,作者在两个数据集上观察到性能分别提升了1.21%和1.73%。因此,为了保留空间细节,在作者的方法中,作者在第一阶段和第四阶段分配三个模块,在第二阶段和第三阶段使用六个模块来捕捉网络深度内的复杂语义信息。这种策略优化了 Transformer 编码器的计算,提高了长距离依赖建模。

51c视觉~合集1_数据集_23

高效 Transformer 的消融研究

如第三节C部分详细所述,作者在HAPFormer中的另一项关键贡献是高效 Transformer (ET)模块,该模块通过在计算自注意力之前将特征投影到最优的潜在嵌入空间来降低特征的维度。《表3》展示了ET模块与传统 Transformer (记为“TT”)在Cityscapes和CamVid数据集上在分割准确性和计算复杂性方面的性能提升。

51c视觉~合集1_数据集_24

如表3所示,ET设计在效率和准确性之间展示了优越的平衡。与传统 Transformer “TT”相比,ET在参数数量上减少了18%,计算负载降低了17%,而mIoU仅损失了0.4%。这使得模型在性能影响最小的同时更加高效,甚至提供更快的推理速度。此外,表4的结果也揭示了在整合通过 Transformer 学习的特征后,mIoU显著提升了2.16%。这强调了 Transformer 捕捉长距离依赖关系的卓越能力,这是仅凭CNN无法实现的。

51c视觉~合集1_数据集_25

另外,在所提出的HAPFormer中,ET层的数量故意限制为2,考虑到计算硬件的限制,并且在约束下力求实现最佳平衡。尽管堆叠更多的ET层可能会带来更好的准确度结果,如图8所示,当大于2时,性能提升幅度显著减缓。而且,在像Cityscapes这样的高分辨率数据集上添加过多的ET层可能会对参数、计算和推理速度产生负面影响,甚至可能导致过拟合。

相关加权融合的消融研究。 为了解决CNN和 Transformer 之间的特征不匹配问题,并确保在解码过程中有效恢复特征,作者在第三节D中引入了cw机制。《表4》比较了使用作者的cwF方法与其他两种融合技术(即逐元素加法和连接)获得的结果。该表显示了在整合CNN和 Transformer 特征时,使用这三种融合方法都能增强分割准确性。特别是,作者的cwF在使用一个ET层时比 Baseline 性能提高了2.38%,在使用两个堆叠层时提高了4.06%。

此外,从表4中作者可以观察到:(a) 与简单的逐元素加法融合方案相比,作者的cwF在两种情况下的性能分别提高了1.27%和1.90%,而在参数数量和FLOPs上仅略有增加;(b) 作者的cwF相对于计算成本较高的拼接操作,分别实现了0.84%和1.01%的mIoU增益,同时在参数数量上减少了大约5%,计算负载降低了15%。这些实验结果进一步证明了作者cwF的有效性。

Comparisons with SOTA Methods

在本节中,作者广泛评估并比较了作者的方法与一些最先进方法的表现和效率,以展示作者提出方法的优点。作者的评估主要关注三个关键方面:分割准确性、模型参数和浮点运算(FLOPs)。

在Cityscapes上的评估结果。 表5呈现了在Cityscapes测试集上与先进的语义分割方法的定量比较。每类结果的详细信息在表6中给出,可视化结果在图9中展示。为确保公平性,在测试期间未使用增强技术,其他网络的数据来自相关来源。当代的语义分割模型主要分为两类:一类强调更大尺寸和高精度,另一类优先考虑实时实用性,并在准确性和效率之间取得平衡。

51c视觉~合集1_编码器_26

51c视觉~合集1_数据集_27

虽然大型模型实现了高精度,但它们的FLOPs和速度落后于轻量级模型,这使得它们不适用于资源有限的设备上的实时处理。相比之下,像ENet [10],ESPNet [12],CGNet [53]和FPENet [59]这样的轻量级模型在计算上效率较高。尽管它们的参数数量减少了,但它们的整体性能尤其在准确性方面有所不足。在准确性方面,EFRNet-16 [66]与作者的结果相似。然而,值得注意的是,它的参数数量和GFlops是作者的两倍。显然,作者的模型需要更少的参数和计算,突出了作者方法的效率。

在CamVid上的评估结果。 为进一步验证作者模型的有效性和泛化能力,作者在表7上与其他轻量级方法在CamVid数据集上的比较。虽然MGSeg [64]在准确性上超过了作者的方法1.6个百分点,但其参数数量却是作者的22倍,这表明了不利的权衡。另一方面,SGCPNet [51]在速度上表现出色,但缺乏准确性。相比之下,作者的HAFormer在各个方面取得了更好的平衡。与Cityscapes相比,在CamVid数据集上的总体性能较低,这是由于其较小的尺寸和较低的分辨率,这突显了作者方法的强大泛化能力。图10中的可视化结果进一步展示了作者HAFormer的优势。

51c视觉~合集1_数据集_28

51c视觉~合集1_卷积_29

速度比较。 为确保公平比较,所有方法都在同一平台上执行,因为计算负载直接影响推理速度,而推理速度可能会根据设备的不同而变化。在作者的受控评估中,使用单个NVIDIA RTX 2080Ti GPU来测量模型执行时间。表8详细比较了作者的提出的HAFormer与其他轻量级方法的速度和运行时间。实验涉及用于评估的空间分辨率为,与官方代码的方法保持一致以确保公平性。表8展示了HAFormer令人印象深刻的速度,处理大小为的图像流时达到105 fps,使其成为最快的几种方法之一。尽管DABNet以139 fps的速度运行,但HAFormer的竞争力准确性74.2%对于自动驾驶等现实世界应用非常重要。在速度(105 fps)和准确性之间取得有效平衡,HAFormer成为了实际应用的强有力候选者。

51c视觉~合集1_数据集_30

V Conclusions

在本研究中,作者引入了HAFormer,这是一种新的轻量级语义分割方法。作者设计了分层感知像素激活模块(HAPE)以提取增强的分层局部特征。

此外,一个高效的Transformer模块能够在有限的计算负载下有效地捕获广泛的全球特征。

然后,作者融入了一种相关性加权融合(cwF)机制,以结合高相关的CNN和Transformer特征,从而改进表示学习。

通过在基准数据集上的大量实验,作者的方法显示了其有效性和泛化能力,突显了HAFormer在以下方面的能力:



#Face-Adapter

细粒度ID和属性控制的换脸/人脸再现适配器

相比于完全微调的人脸再现/交换模型,face - adapter在运动控制精度、ID保留能力和生成质量方面实现了相当甚至更好的性能。此外,Face-Adapter与各种StableDiffusion模型无缝集成。

文章地址 https://arxiv.org/abs/2405.12970

项目地址 https://github.com/FaceAdapter/Face-Adapter

01 导言

本文提出FaceAdapter,这是一种高效的轻量级适配器,专为预训练扩散模型的高精度和高保真的人脸再现/交换任务而设计。

人脸再现/交换任务本质上都涉及目标结构、ID和属性的组合,所以本文目标是充分解耦这些因素的控制,以便在一个模型中实现这两个任务。

具体来说,方法包括:

1)提供精确landmarks和背景的空间条件生成器,

2)即插即用的身份编码器,通过转换器解码器将面部嵌入转移到文本空间。

3)集成空间条件和详细属性的属性控制器。

相比于完全微调的人脸再现/交换模型,face - adapter在运动控制精度、ID保留能力和生成质量方面实现了相当甚至更好的性能。此外,Face-Adapter与各种StableDiffusion模型无缝集成。

亮点:

  • 轻量适配器:即插即用,适用于预训练的扩散模型
  • 新的空间条件生成器模块:预测必要的生成区域,与身份编码器和属性控制器协作,将重现和交换任务框架化为具有充分空间指导、身份和必要属性的条件修补任务
  • 一个模型两个任务:允许简单的修改输入独立完成人脸再见和人脸交换两个面部任务并获取优越或竞争结果。

02 方法

先来看看Face-Adapter与其它方法的简约对比如下:

51c视觉~合集1_编码器_31

上图:Face-Adapter支持“一个模型两个任务”的方法,并在各种具有挑战性的场景下展示了鲁棒性。下图是Face-Adapter和全微调方法/目前adapters方法的对比。

Face-Adapter的具体架构如下:

51c视觉~合集1_数据集_32

Face-Adapter pipeline

由三个模块组成:1)空间条件生成器预测3D先验landmarks并自动适应前景蒙版,为控制生成提供更准确的指导。

2) Identity Encoder通过使用可学习的查询将人脸嵌入转移到文本空间,从而提高生成图像的身份一致性。

3)属性控制器具有(i)空间控制功能,将目标运动地标与来自空间条件生成器的不变背景相结合,以及(ii)属性模板来填充缺失属性。

2.1 空间条件生成器

空间条件生成器(SCG)来自动预测3D先验landmarks和不同前景区域的掩码,为后续的控制生成提供更合理和精确的指导。具体来说,该组件由两个子模块组成:

  • 3D Landmark投影

3D面部重建方法用来提取源脸和目标脸的身份、表情和姿势系数。随后,将源的身份系数与目标的表情和位姿系数重新组合,重建一个新的三维人脸,并将其投影以获得相应的landmarks

  • 适应区域预测器

引入了一种轻量级的适应区域预测器,用于面部重演和交换,自动预测模型需要生成的区域(适应区域),同时保持其余区域不变。对于面部再现,适应区域包括源图像头部在重演前后的区域。

2.2 身份编码

如IP-Adapter-FaceID和InstantID所证明的那样, 高层次语义的人脸嵌入可以确保更强健的身份保存。正如我们所观察到的, 在人脸再现/交换中不需要重型纹理编码器或额外的身份网络。只需调整一个轻量级映射模块, 将人脸嵌入映射到固定的文本空间中, 即可保证身份保持。具体来说, 给定一张人脸图像 , 通过预训练的人脸识别模型  获得人脸嵌入  。随后, 采用三层transformer 解码器  将人脸嵌入  投影到预训练扩散模型的固定文本语义空间中, 获得身份token。

Transformer解码器中指定的可学习查询  的个数 N (本文设  )约束了身份嵌入的序列长度, 保证其不超过文本嵌入的最大长度。通过这种方法, 预训练扩散模型的UNet不需要任何微调来适应人脸嵌入。

2.3 属性控制

  • 空间控制

与ControlNet一致, 创建了U-Net的一个副本 , 并添加了空间控制  作为调节输入。空间控制图像  由目标运动标志  与自适应区域预测器  或  )得到的非自适应区域相结合得到

51c视觉~合集1_编码器_33

再现和交换任务都可以看作是利用给定的身份和其他缺失的属性内容,遵循提供的空间控制执行条件绘制的过程。

  • 属性模板

考虑到身份和部分背景的空间控制,属性模板被设计来补充缺失的信息,包括灯光和部分背景和头发。属性嵌入  使用CLIP  从属性模板(  用于再现,  用于交换)中提取。为了同时获得局部和全局特征, 使用patch令牌和全局令牌。特征映射器模块也被构造为具有可学习查询  的三层transformer层 。

03 实验结果

  • 人脸再现

51c视觉~合集1_数据集_34

51c视觉~合集1_卷积_35

51c视觉~合集1_卷积_36

  • 人脸交换

51c视觉~合集1_卷积_37

51c视觉~合集1_数据集_38



欢迎大家一起 扣 ~裙研究~~ 64104075

whaosoft aiot 天皓智联