自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 视觉 注意力机制——通道注意力、空间注意力、自注意力、交叉注意力

在计算机视觉领域,注意力机制(Attention Mechanism)已成为提升模型性能的关键技术之一。注意力机制通过模拟人类视觉的选择性注意力,能够在海量数据中自动聚焦于最相关的信息,从而提高模型的效率和准确性。下面将介绍通道注意力、空间注意力、自注意力和交叉注意力四种类型。

2024-07-15 10:52:38 1271

原创 图像隐写综述(小白入门)

对图像隐写进行了总结,适合研一新生入门图像隐写!涉及到空间域隐写、频域隐写、评价标准、流行的隐写工具等等,并进行了展望。

2024-02-29 13:42:52 3035 1

原创 《Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection》ICCV2023

论文提出了一种方法,通过掩蔽图像建模(MIM)预训练的普通视觉Transformer(ViT)来高效且有效地进行目标检测。作者基于两个新颖的观察结果:(i) 即使是随机采样的部分观察结果(例如25%到50%的输入序列),MIM预训练的ViT编码器也能在具有挑战性的物体级别识别场景中表现出色;(ii) 为了构建目标检测的多尺度表示,随机初始化的紧凑卷积Stem(ConvStem)取代了预训练的大核补丁化Stem(PatchStem),其中间特征可以直接作为特征金字塔的高分辨率输入,无需上采样。

2024-08-15 22:51:59 662

原创 《Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning》ICCV2023

近年来,尽管目标检测技术取得了巨大成功,但现有的优秀检测器在处理尺寸受限的小型实例时仍然存在挑战。主要问题在于先验与目标区域之间的重叠度低,导致优化过程中可用样本池受限,且小型实例缺乏区分信息,进一步加剧了识别难度。为了缓解这些问题,论文提出了CFINet,这是一个基于粗到细的流水线和特征模仿学习的两阶段小型目标检测框架。

2024-08-13 21:55:06 912

原创 《SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates 》

作者基于卷积神经网络(CNN)在语义分割中的成功和遇到的问题,提出了一种编码器-解码器架构,其中包含独特的高效残差网络EfficientResNet。该网络利用注意力提升门(AbGs)和注意力提升模块(AbMs)来融合等变和基于特征的语义信息,并与编码器中全局上下文的输出尺寸相匹配。此外,解码器网络通过额外的注意力融合网络(AfNs)得到了发展,这些网络的设计灵感来自于AbM,旨在通过在解码器部分部署额外的卷积层来提高语义信息一对一转换的效率。

2024-08-13 11:18:17 539

原创 《DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection》CVPR2022

DINO 是一种先进的端到端目标检测器,通过使用对比性去噪训练、混合查询选择方法和双重前瞻方案来改进性能和效率。在 COCO 数据集上,使用 ResNet-50 作为主干网络和多尺度特征,DINO 在 12 轮训练中达到了 49.4AP,在 24 轮训练中达到了 51.3AP,与之前的最好模型 DN-DETR 相比分别提高了 6.0AP 和 2.7AP。DINO 在模型大小和数据大小方面都具有很好的扩展性。

2024-08-12 15:39:35 963

原创 《Semantics-Guided Contrastive Network for Zero-Shot Object Detection》TPAMI2024

这篇论文提出了一种新颖的用于零样本目标检测(Zero-shot Object Detection, ZSD)的语义引导对比网络,称为 ContrastZSD。零样本目标检测是一项将传统检测模型扩展到检测未见类别对象的新挑战。现有的方法通常采用严格的映射转换策略来处理ZSD任务,这可能导致次优的结果。ContrastZSD首次将对比学习机制引入零样本检测领域,通过两个语义引导的对比学习子网络,分别对区域-类别和区域-区域对进行对比。

2024-08-11 21:09:21 932

原创 《Adaptive Rotated Convolution for Rotated Object Detection》ICCV2023

这篇论文针对的是旋转目标检测问题,即在图像中识别和定位任意方向的对象。与常规的目标检测不同,旋转目标检测需要处理对象在图像中可能存在的多种方向。传统的卷积神经网络(backbone networks)在提取这些任意方向目标的特征时面临挑战。为了解决这个问题,论文提出了一种自适应旋转卷积(Adaptive Rotated Convolution, ARC)模块,该模块通过自适应旋转卷积核来提取不同图像中不同方向的目标特征,并引入高效的条件计算机制来处理图像中对象的大范围方向变化。

2024-08-11 17:43:45 994

原创 《Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers》CVPR2023 论文精度

本文提出了一种名为Feature Shrinkage Pyramid Network (FSPNet)的新型Transformer模型,用于提高伪装物体检测的性能。FSPNet通过非局部令牌增强模块(NL-TEM)和特征收缩解码器(FSD)解决了现有视觉Transformer在局部特征建模和解码器特征聚合方面的不足,通过逐步缩小的方式累积关键的视觉线索,以实现更准确的物体检测。

2024-08-10 12:40:30 780

原创 《Unified Visual Relationship Detection with Vision and Language Models》ICCV2023

这项工作集中在训练单一的视觉关系检测器(VRD),该检测器可以预测来自多个数据集的标签空间的并集。由于不同数据集的标签体系不一致,合并标签是一个挑战。作者提出了 UniVRD,一种新颖的自下而上的方法,利用视觉和语言模型(VLMs)来统一视觉关系检测。VLMs 提供了对齐良好的图像和文本嵌入,其中相似的关系被优化以在语义上统一。UniVRD 在 HICO-DET 上达到了 38.07 mAP,比当前最佳的自下而上的 HOI 检测器相对提高了 60%。

2024-08-09 15:32:31 1096

原创 Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for Occluded Facial Expression Recog

作者提出了Latent-OFER方法,它能够检测遮挡、恢复被遮挡的面部部分,并提高FER的准确性。该方法包括三个步骤:使用基于视觉变换器(ViT)的遮挡补丁检测器通过支持向量数据描述(SVDD)算法仅从未遮挡的补丁中训练潜在向量来掩盖遮挡位置;混合重建网络使用ViT和卷积神经网络(CNN)生成完整的图像;最后,表情相关潜在向量提取器通过应用基于CNN的类激活图来检索和使用所有潜在向量中的与表情相关的信息。实验结果表明,该方法在多个数据库上的性能优于现有技术。

2024-08-08 19:51:56 1035

原创 《PDiscoNet: Semantically consistent part discovery for fine-grained recognition》ICCV2023

细粒度分类往往需要识别特定的对象部分,例如鸟类的喙形状和翅膀图案。传统的解释性方法通常提供单一的归因图,而本文提出的 PDiscoNet 旨在仅使用图像级别的类别标签,发现对象的部分,鼓励模型首先检测这些部分,然后使用它们推断类别。这有助于我们更好地评估模型是否真的关注了正确的细节。PDiscoNet 通过使用一些先验知识,鼓励部分具有区分性、紧凑性、相互独立、对刚性变换具有等变性,并且在至少一些图像中活跃。

2024-08-08 09:09:09 714

原创 《UniverSeg: Universal Medical Image Segmentation》ICCV2023

这篇论文提出了一种名为 UniverSeg 的方法,它能够解决未见过的医学图像分割任务,而无需额外的训练。现有的深度学习模型通常无法泛化到新的解剖结构、图像模式或标签上。UniverSeg 利用一种新的 CrossBlock 机制,通过查询图像和定义新分割任务的示例集来生成准确的分割图。研究者们收集并标准化了 53 个开放获取的医学分割数据集,超过 22,000 个扫描,形成了 MegaMedical 数据集,用以训练 UniverSeg 处理多样化的解剖结构和成像模式。

2024-08-07 21:34:03 567

原创 《Pre-training Vision Transformers with Very Limited Synthesized Images》ICCV2023

本文提出了一种基于数学公式生成的合成图像的预训练方法,称为公式驱动的监督学习(FDSL)。该方法利用分形等数学公式生成合成图像,以预训练视觉变换器(ViT)。作者们假设在FDSL中为同一类别生成不同实例的过程可以视为一种数据增强形式。通过实验,他们发现使用单一实例的分形数据库(OFDB)替换原有数据集,可以取得更好的效果。

2024-08-07 11:46:22 823

原创 《Token-Label Alignment for Vision Transformers》ICCV2023

输入token在前向传播过程中的贡献会出现波动,可能导致输出token的混合比例与预期不同,从而使得原始数据混合策略计算出的训练目标不准确,影响训练效果。为了解决这个问题,论文提出了一种名为Token-Label Alignment (TL-Align) 的方法,通过追踪变换后的token与原始token之间的对应关系,为每个token保持标签。TL-Align方法通过重用每层计算出的注意力来高效地进行token-label对齐,仅引入了微小的额外训练成本。广泛的实验表明,该方法在图像分类、语义分割、目标检

2024-08-07 10:58:50 812

原创 《Dynamic Token Pruning in Plain Vision Transformers for Semantic Segmentation》ICCV2023

本文提出了一种基于token提前退出的动态token剪枝(Dynamic Token Pruning, DToP)方法,用于语义分割。该方法受到人类从粗糙到精细的分割过程的启发,将广泛采用的辅助损失网络架构自然地分成几个阶段,每个辅助块为每个token的难度等级进行分级。我们可以提前完成简单token的预测,而无需完成整个前向传播。此外,我们为每个语义类别保留k个最高置信度的token,以维持代表性的上下文信息。因此,计算复杂性将随着输入的难度而变化,类似于人类的分割方式。

2024-08-06 22:38:53 971

原创 《Token Contrast for Weakly-Supervised Semantic Segmentation》CVPR2023

在弱监督语义分割(WSSS)中,传统方法通常使用类激活映射(CAM)生成伪标签,但受限于卷积神经网络(CNN)的局部结构感知能力,往往难以识别完整的对象区域。尽管最近的研究表明,视觉Transformer(ViT)可以弥补这一缺陷,但作者观察到ViT也带来了过度平滑问题,即最终的patch tokens趋于一致。为了解决这个问题,本文提出了Token Contrast(ToCo)方法,通过探索ViT在WSSS中的优势。

2024-08-02 09:35:23 579

原创 《Transformer Scale Gate for Semantic Segmentation》CVPR2023

论文提出了一种名为Transformer Scale Gate(TSG)的模块,用于优化在语义分割任务中多尺度上下文信息的编码。现有的基于Transformer的分割模型在组合不同尺度的特征时没有进行选择,这可能导致次优尺度的特征降低分割的准确性。TSG利用Vision Transformer中的自注意力和交叉注意力的内在属性来选择尺度。TSG是一个高度灵活的即插即用模块,可以轻松集成到任何基于编码器-解码器的层次化视觉Transformer架构中。

2024-08-01 20:13:04 824

原创 《BiFormer: Vision Transformer with Bi-Level Routing Attention》CVPR2023

这篇论文提出了一种新型的视觉Transformer,名为BiFormer,它采用了双层路由注意力(Bi-Level Routing Attention, BRA)机制。注意力机制是视觉变换器的核心构建模块,能够捕获数据中的长期依赖性。然而,这种能力的代价是计算量大和内存占用高。为了解决这个问题,作者提出了一种动态稀疏注意力机制,通过双层路由来实现计算的灵活分配,并具有内容意识。

2024-08-01 17:01:46 1306

原创 《URLOST: Unsupervised Representation Learning without Stationarity or Topology》CVPR2023

无监督表示学习取得了巨大进步,但受到其对数据模态特定的例如,人类视觉处理来自不规则和非平稳采样格的视觉信号,并准确地感知世界的几何形状。我们引入了一种新颖的框架,可以。我们评估其对模拟生物视觉数据、初级视觉皮层的神经记录和基因表达数据集的有效性。与 SimCLR 和 MAE 等最先进的无监督学习方法相比,我们的模型擅长跨不同模式学习有意义的表示,而不依赖于平稳性或拓扑。它还优于不依赖于这些因素的其他方法,在该领域树立了新的基准。这项工作代表了向无监督学习方法迈出的一步,该方法可以泛化各种高维数据模式。

2024-07-31 23:03:34 1028

原创 《VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation》CVPR2024

这篇论文提出了一种名为VCP-CLIP的视觉上下文提示模型,用于解决零样本异常分割(Zero-Shot Anomaly Segmentation, ZSAS)任务。VCP-CLIP利用大规模视觉-语言模型CLIP,通过引入视觉上下文提示来激活CLIP对异常语义的感知能力。该方法首先设计了一个Pre-VCP模块,将全局视觉信息嵌入到文本提示中,消除了对特定产品提示的需求。接着,提出了一个新颖的Post-VCP模块,根据图像的细粒度特征调整文本嵌入。

2024-07-31 17:35:53 825

原创 《DETRs Beat YOLOs on Real-time Object Detection》CVPR2023论文解读

这篇论文介绍了一种名为Real-Time DEtection TRansformer (RT-DETR)的新方法,旨在解决现有端到端基于Transformer的目标检测(DETRs)在实时目标检测中的高计算成本问题。作者首先分析了现代实时目标检测器中非极大值抑制(NMS)对推理速度的影响,并建立了一个端到端速度基准。为了避免NMS引起的推理延迟,提出了RT-DETR,据作者所知,这是第一个实时端到端目标检测器。

2024-07-30 16:19:09 704

原创 《RMT: Retentive Networks Meet Vision Transformers》CVPR2024

这篇论文探讨了将Retentive Network(RetNet)的概念引入到计算机视觉领域,并与Vision Transformer结合,提出了一种新的模型RMT(Retentive Networks Meet Vision Transformers)。RetNet最初在自然语言处理(NLP)领域展现出色性能,作者们提出疑问,是否将RetNet的思想迁移到视觉领域也能带来卓越的性能。RMT通过引入与空间距离相关的显式衰减机制,为视觉模型带来了空间先验知识。

2024-07-27 09:11:36 983

原创 《Dynamic Feature Pruning and Consolidation for Occluded Person Re-Identification》

这篇论文提出了一种用于遮挡人体再识别(Re-ID)的特征剪枝和整合(Feature Pruning and Consolidation, FPC)框架。遮挡人体再识别是一个挑战性问题,因为遮挡物的存在会干扰识别过程。现有的方法依赖于人体关键点和语义分割等先验知识线索,但在严重遮挡和其他人体作为遮挡物的情况下容易失败。本文提出的FPC框架通过稀疏编码器、多视图特征匹配模块和特征整合解码器来避免显式解析人体结构。

2024-07-25 14:53:04 683

原创 《Semantic-Aware Autoregressive Image Modeling for Visual Representation Learning》

本文提出了一种名为Semantic-Aware Autoregressive Image Modeling(SemAIM)的方法,旨在改善计算机视觉中的自回归建模(AM),使其更接近自然语言处理(NLP)中的自监督预训练水平。作者指出,由于图像不是序列信号,缺乏自然顺序,这使得在应用自回归建模时面临挑战。SemAIM方法启发于人类理解图像的方式,即首先关注主要对象,然后逐步关注图像中的其他内容。通过首先根据特征相似性计算语义感知的图像块排列,然后基于此排列执行自回归过程,SemAIM解决了这一问题。

2024-07-25 09:37:56 1616

原创 《SeTformer Is What You Need for Vision and Language》

这篇论文介绍了一种新型的变换器模型,名为SeTformer,它针对视觉和语言任务进行了优化。SeTformer的核心创新是将传统的点积自注意力(DPSA)替换为一种基于自我最优传输(Self-optimal Transport,简称SeT)的机制。这种替换旨在解决传统变换器在处理长序列时面临的计算效率低下的问题,同时保持或提升性能。SeT基于两个关键的softmax属性:维持非负的注意力矩阵和使用非线性重加权机制来强调输入序列中的重要token。

2024-07-23 23:00:36 872

原创 《HC-Mamba: Vision MAMBA with Hybrid Convolutional Techniques for Medical Image Segmentation》

自动医学图像分割技术有潜力加速病理诊断,提高病人护理的效率。然而,医学图像通常具有复杂的纹理和结构,模型在处理这些图像时常面临由于下采样导致的图像分辨率降低和信息丢失的问题。为了解决这一问题,作者提出了HC-Mamba,这是一种基于现代状态空间模型Mamba的新型医学图像分割模型。具体来说,HC-Mamba模型引入了扩张卷积技术,以不增加计算成本的方式捕获更广泛的上下文信息。此外,HC-Mamba模型采用深度可分离卷积,显著减少了模型的参数数量和计算能力。

2024-07-23 21:05:59 682

原创 《MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders》

多任务密集场景理解是一个在计算机视觉中具有广泛应用的重要问题,例如自动驾驶、医疗保健和机器人技术。这项任务的目标是训练一个模型同时处理多个密集预测任务,如语义分割、单目深度估计和表面法线估计。本文提出了MTMamba,一种新颖的基于Mamba的多任务场景理解架构。MTMamba包含两种核心模块:自任务Mamba(STM)模块和跨任务Mamba(CTM)模块。STM通过利用Mamba处理长距离依赖性,而CTM则显式地建模任务间的交互以促进跨任务的信息交换。

2024-07-23 20:30:18 735

原创 《RemoteCLIP: A Vision Language Foundation Model for Remote Sensing》2024遥感顶刊TGRS论文

RemoteCLIP是首个针对遥感领域的视觉-语言基础模型,旨在学习具有丰富语义的视觉特征和与文本嵌入对齐的鲁棒特征,以实现无缝的下游应用。该模型通过数据扩展解决了预训练数据稀缺的问题,将异构注释转换为统一的图像-标题数据格式。RemoteCLIP在多种下游任务上进行了评估,包括零样本图像分类、线性探测、k-NN分类、少样本分类、图像-文本检索和遥感图像中的对象计数。在16个数据集上的评估显示,RemoteCLIP在不同模型规模上一致地超越了基线模型。

2024-07-23 19:28:21 1012

原创 植物病害分级调研

Web of Science搜索,关键字“plant disease severity recognition”,共407篇,限制2023年以后共71篇。

2024-07-18 20:28:04 604

原创 无监督语义分割综述

语义分割是计算机视觉领域的一个重要任务,旨在将图像中的每个像素分配给特定的语义类别。然而,传统的语义分割方法通常依赖大量标注数据,获取这些数据既费时又昂贵。无监督语义分割方法旨在通过不依赖标注数据或仅需少量标注数据的情况下,实现对图像的精确分割。这些方法通过利用数据的内在结构、图像特征和自监督学习技术,从大量未标注的数据中提取有用的信息,显著降低了对标注数据的依赖。本文综述了无监督语义分割的主要方法,包括基于聚类的方法、基于图割的方法、基于生成模型的方法、基于自监督学习的方法以及基于领域自适应性的方法。

2024-07-16 15:12:22 969

原创 《Fully Convolutional Network-Based Self-Supervised Learning for Semantic Segmentation》论文解读

尽管深度学习在许多计算机视觉任务中取得了巨大的成功,但其性能依赖于具有密集标注样本的大型数据集的可用性。这样的数据集很难获得,而且成本很高。本文关注从无标记数据中学习表示以进行语义分割的问题。受两种基于块的方法的启发,本文开发了一种新的自监督学习框架,将Jigsaw问题表述为一个块级分类问题,并用全卷积网络来解决。通过学习解决包含25个拼图块的拼图,并将学习到的特征迁移到语义分割任务中。

2024-07-15 22:22:37 834

原创 《BASeg: Boundary aware semantic segmentation for autonomous driving》论文解读

提出一种边界感知网络(BASeg)用于语义分割,利用边界信息作为指导上下文聚合的重要线索。具体而言,在BASeg中提出了边界细化模块(Boundary Refined Module, BRM),通过骨架中的高层多尺度语义特征来细化Canny检测器粗粒度的底层边界特征;在此基础上,进一步提出了上下文聚合模块(Context Aggregation Module, CAM),以捕获边界区域与目标内部像素之间的长程依赖关系,实现相互增益并增强类内一致性。

2024-07-13 23:16:06 782

原创 《Image semantic segmentation approach based on DeepLabV3 plus network with an attention mechanism》

在提取图像特征信息时,Deeplabv3难以充分利用多尺度信息。这可能会导致细节信息的丢失,并损害分割精度。提出一种改进的基于DeepLabv3网络的图像语义分割方法,以轻量级的MobileNetv2作为模型的骨干。将ECAnet通道注意力机制应用于低层特征,降低计算复杂度,提高目标边界清晰度。在ASPP模块之后引入极化自注意力机制,以提高特征图的空间特征表示。在VOC2012数据集上进行验证,实验结果表明,改进后的模型取得了69.29%的MloU和80.41%的mAP

2024-07-13 21:53:49 649

原创 《Boundary-Guided Lightweight Semantic Segmentation With Multi-Scale Semantic Context》论文解读

轻量级语义分割在多媒体应用中非常重要,如自动驾驶、机器人视觉和虚拟现实等。近年来,许多轻量级双分辨率网络被提出用于语义分割,但它们通常忽略了不同尺度的语义上下文和对象边界。本文提出了一种新的双分辨率轻量级网络BSCNet,它利用多尺度语义上下文和对象边界辅助信息来改善语义分割。BSCNet设计了一个极轻量金字塔池化模块(ELPPM)来捕获多尺度语义上下文,并使用边界辅助融合模块(BAFM)来增强特征表示能力。实验结果表明,BSCNet在语义分割准确性和运行效率方面达到了最先进的水平。

2024-07-13 20:11:20 826

原创 《Cross-Image Pixel Contrasting for Semantic Segmentation》论文解读

本文提出一种像素级对比算法PiCo,用于全监督学习环境下的语义分割。其核心思想是强制属于相同语义类的像素嵌入比来自不同语义类的嵌入更相似。通过明确探索以前很少研究的标记像素的结构,提出了一种用于语义分割的像素级度量学习范式。所提出的训练算法与现代分割解决方案兼容,在测试期间没有额外的开销。

2024-07-13 17:10:18 906

原创 《GroupViT: Semantic Segmentation Emerges from Text Supervision》论文解读

在深度网络中超越规则形状的图像网格,引入了一种新的GroupViT架构,以将视觉概念进行分层自底向上的分组为不规则形状的Group。没有任何像素级标签和训练,只有使用对比损失的图像级文本监督,GroupViT成功地学会了将图像区域分组在一起,并以零样本的方式迁移到几个语义分割词汇表。据我们所知,本文是在不使用任何像素标签的情况下,探索从文本监督单独到几个语义分割任务的零样本迁移的第一项工作,并为这项新任务建立了强大的基线。

2024-07-13 11:29:10 845

原创 计算机视觉领域的基础模型

传统模型:只有图像输入,使用Transformer架构和自监督学习方法。文本提示模型/视觉语言模型(VLMs):接受图像和文本输入,如OpenAI的CLIP和Flamingo模型。视觉提示模型:需要图像和视觉提示(如边界框或点)或文本提示,例如Segment Anything Model(SAM)。异构模型:可以接受多种类型输入并生成多种类型输出的模型。

2024-07-12 16:45:25 803

原创 《HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs》解读

我们提出了一种具有高分辨率输入(即HIRI-ViT)的新型混合主干网,将流行的四级ViT升级为针对高分辨率输入量身定制的五级ViT。HIRI-ViT是建立在将典型的CNN操作以经济高效的方式分解为两个并行CNN分支的开创性思想之上的。一个高分辨率分支直接将主要高分辨率特征作为输入,但使用较少的卷积操作。另一个低分辨率分支首先执行下采样,然后在这些低分辨率特征上使用更多的卷积操作。

2024-07-05 11:43:39 1150

原创 SBCFormer: Lightweight Network Capable of Full-size ImageNet Classification at 1 FPS

提出了一种CNN-ViT混合网络SBCFormer,在这种低端cpu上实现了高精度和快速计算。这些cpu的硬件限制使得Transformer的注意力机制优于卷积。然而,在低端cpu上使用注意力机制存在一个挑战:高分辨率的内部特征图需要过多的计算资源,但降低其分辨率会导致局部图像细节的丢失。SBCFormer引入了一种架构设计来解决这个问题。

2024-07-04 15:05:31 843

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除