自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 VLM(视觉语言模型)综述

对视觉语言多模态的模型进行介绍,涉及CLIP、GLIP、VLMo、Flamingo、BLIP等等。VLMs的分类:根据VLM的输入处理和输出生成能力将其分为三个不同的组:视觉语言理解模型:专门为视觉信息与语言的解释和理解而设计的模型多模态输入文本生成模型:擅长利用多模态输入(如图像、视频和文本)来生成文本内容多模态输入多模态输出模型:不仅接受多模态输入,还能产生多模态的输出

2024-08-30 14:18:08 14585

原创 《Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection》ICCV2023

论文提出了一种方法,通过掩蔽图像建模(MIM)预训练的普通视觉Transformer(ViT)来高效且有效地进行目标检测。作者基于两个新颖的观察结果:(i) 即使是随机采样的部分观察结果(例如25%到50%的输入序列),MIM预训练的ViT编码器也能在具有挑战性的物体级别识别场景中表现出色;(ii) 为了构建目标检测的多尺度表示,随机初始化的紧凑卷积Stem(ConvStem)取代了预训练的大核补丁化Stem(PatchStem),其中间特征可以直接作为特征金字塔的高分辨率输入,无需上采样。

2024-08-15 22:51:59 784

原创 《Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning》ICCV2023

近年来,尽管目标检测技术取得了巨大成功,但现有的优秀检测器在处理尺寸受限的小型实例时仍然存在挑战。主要问题在于先验与目标区域之间的重叠度低,导致优化过程中可用样本池受限,且小型实例缺乏区分信息,进一步加剧了识别难度。为了缓解这些问题,论文提出了CFINet,这是一个基于粗到细的流水线和特征模仿学习的两阶段小型目标检测框架。

2024-08-13 21:55:06 1135

原创 《SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates 》

作者基于卷积神经网络(CNN)在语义分割中的成功和遇到的问题,提出了一种编码器-解码器架构,其中包含独特的高效残差网络EfficientResNet。该网络利用注意力提升门(AbGs)和注意力提升模块(AbMs)来融合等变和基于特征的语义信息,并与编码器中全局上下文的输出尺寸相匹配。此外,解码器网络通过额外的注意力融合网络(AfNs)得到了发展,这些网络的设计灵感来自于AbM,旨在通过在解码器部分部署额外的卷积层来提高语义信息一对一转换的效率。

2024-08-13 11:18:17 1175

原创 《DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection》CVPR2022

DINO 是一种先进的端到端目标检测器,通过使用对比性去噪训练、混合查询选择方法和双重前瞻方案来改进性能和效率。在 COCO 数据集上,使用 ResNet-50 作为主干网络和多尺度特征,DINO 在 12 轮训练中达到了 49.4AP,在 24 轮训练中达到了 51.3AP,与之前的最好模型 DN-DETR 相比分别提高了 6.0AP 和 2.7AP。DINO 在模型大小和数据大小方面都具有很好的扩展性。

2024-08-12 15:39:35 1485

原创 《Semantics-Guided Contrastive Network for Zero-Shot Object Detection》TPAMI2024

这篇论文提出了一种新颖的用于零样本目标检测(Zero-shot Object Detection, ZSD)的语义引导对比网络,称为 ContrastZSD。零样本目标检测是一项将传统检测模型扩展到检测未见类别对象的新挑战。现有的方法通常采用严格的映射转换策略来处理ZSD任务,这可能导致次优的结果。ContrastZSD首次将对比学习机制引入零样本检测领域,通过两个语义引导的对比学习子网络,分别对区域-类别和区域-区域对进行对比。

2024-08-11 21:09:21 1212

原创 《Adaptive Rotated Convolution for Rotated Object Detection》ICCV2023

这篇论文针对的是旋转目标检测问题,即在图像中识别和定位任意方向的对象。与常规的目标检测不同,旋转目标检测需要处理对象在图像中可能存在的多种方向。传统的卷积神经网络(backbone networks)在提取这些任意方向目标的特征时面临挑战。为了解决这个问题,论文提出了一种自适应旋转卷积(Adaptive Rotated Convolution, ARC)模块,该模块通过自适应旋转卷积核来提取不同图像中不同方向的目标特征,并引入高效的条件计算机制来处理图像中对象的大范围方向变化。

2024-08-11 17:43:45 2108

原创 《Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers》CVPR2023 论文精度

本文提出了一种名为Feature Shrinkage Pyramid Network (FSPNet)的新型Transformer模型,用于提高伪装物体检测的性能。FSPNet通过非局部令牌增强模块(NL-TEM)和特征收缩解码器(FSD)解决了现有视觉Transformer在局部特征建模和解码器特征聚合方面的不足,通过逐步缩小的方式累积关键的视觉线索,以实现更准确的物体检测。

2024-08-10 12:40:30 1142

原创 《Unified Visual Relationship Detection with Vision and Language Models》ICCV2023

这项工作集中在训练单一的视觉关系检测器(VRD),该检测器可以预测来自多个数据集的标签空间的并集。由于不同数据集的标签体系不一致,合并标签是一个挑战。作者提出了 UniVRD,一种新颖的自下而上的方法,利用视觉和语言模型(VLMs)来统一视觉关系检测。VLMs 提供了对齐良好的图像和文本嵌入,其中相似的关系被优化以在语义上统一。UniVRD 在 HICO-DET 上达到了 38.07 mAP,比当前最佳的自下而上的 HOI 检测器相对提高了 60%。

2024-08-09 15:32:31 1394

原创 Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for Occluded Facial Expression Recog

作者提出了Latent-OFER方法,它能够检测遮挡、恢复被遮挡的面部部分,并提高FER的准确性。该方法包括三个步骤:使用基于视觉变换器(ViT)的遮挡补丁检测器通过支持向量数据描述(SVDD)算法仅从未遮挡的补丁中训练潜在向量来掩盖遮挡位置;混合重建网络使用ViT和卷积神经网络(CNN)生成完整的图像;最后,表情相关潜在向量提取器通过应用基于CNN的类激活图来检索和使用所有潜在向量中的与表情相关的信息。实验结果表明,该方法在多个数据库上的性能优于现有技术。

2024-08-08 19:51:56 1211

原创 《PDiscoNet: Semantically consistent part discovery for fine-grained recognition》ICCV2023

细粒度分类往往需要识别特定的对象部分,例如鸟类的喙形状和翅膀图案。传统的解释性方法通常提供单一的归因图,而本文提出的 PDiscoNet 旨在仅使用图像级别的类别标签,发现对象的部分,鼓励模型首先检测这些部分,然后使用它们推断类别。这有助于我们更好地评估模型是否真的关注了正确的细节。PDiscoNet 通过使用一些先验知识,鼓励部分具有区分性、紧凑性、相互独立、对刚性变换具有等变性,并且在至少一些图像中活跃。

2024-08-08 09:09:09 843

原创 《UniverSeg: Universal Medical Image Segmentation》ICCV2023

这篇论文提出了一种名为 UniverSeg 的方法,它能够解决未见过的医学图像分割任务,而无需额外的训练。现有的深度学习模型通常无法泛化到新的解剖结构、图像模式或标签上。UniverSeg 利用一种新的 CrossBlock 机制,通过查询图像和定义新分割任务的示例集来生成准确的分割图。研究者们收集并标准化了 53 个开放获取的医学分割数据集,超过 22,000 个扫描,形成了 MegaMedical 数据集,用以训练 UniverSeg 处理多样化的解剖结构和成像模式。

2024-08-07 21:34:03 862

原创 《Pre-training Vision Transformers with Very Limited Synthesized Images》ICCV2023

本文提出了一种基于数学公式生成的合成图像的预训练方法,称为公式驱动的监督学习(FDSL)。该方法利用分形等数学公式生成合成图像,以预训练视觉变换器(ViT)。作者们假设在FDSL中为同一类别生成不同实例的过程可以视为一种数据增强形式。通过实验,他们发现使用单一实例的分形数据库(OFDB)替换原有数据集,可以取得更好的效果。

2024-08-07 11:46:22 888

原创 《Token-Label Alignment for Vision Transformers》ICCV2023

输入token在前向传播过程中的贡献会出现波动,可能导致输出token的混合比例与预期不同,从而使得原始数据混合策略计算出的训练目标不准确,影响训练效果。为了解决这个问题,论文提出了一种名为Token-Label Alignment (TL-Align) 的方法,通过追踪变换后的token与原始token之间的对应关系,为每个token保持标签。TL-Align方法通过重用每层计算出的注意力来高效地进行token-label对齐,仅引入了微小的额外训练成本。广泛的实验表明,该方法在图像分类、语义分割、目标检

2024-08-07 10:58:50 923

原创 《Dynamic Token Pruning in Plain Vision Transformers for Semantic Segmentation》ICCV2023

本文提出了一种基于token提前退出的动态token剪枝(Dynamic Token Pruning, DToP)方法,用于语义分割。该方法受到人类从粗糙到精细的分割过程的启发,将广泛采用的辅助损失网络架构自然地分成几个阶段,每个辅助块为每个token的难度等级进行分级。我们可以提前完成简单token的预测,而无需完成整个前向传播。此外,我们为每个语义类别保留k个最高置信度的token,以维持代表性的上下文信息。因此,计算复杂性将随着输入的难度而变化,类似于人类的分割方式。

2024-08-06 22:38:53 1427 2

原创 《Token Contrast for Weakly-Supervised Semantic Segmentation》CVPR2023

在弱监督语义分割(WSSS)中,传统方法通常使用类激活映射(CAM)生成伪标签,但受限于卷积神经网络(CNN)的局部结构感知能力,往往难以识别完整的对象区域。尽管最近的研究表明,视觉Transformer(ViT)可以弥补这一缺陷,但作者观察到ViT也带来了过度平滑问题,即最终的patch tokens趋于一致。为了解决这个问题,本文提出了Token Contrast(ToCo)方法,通过探索ViT在WSSS中的优势。

2024-08-02 09:35:23 776

原创 《Transformer Scale Gate for Semantic Segmentation》CVPR2023

论文提出了一种名为Transformer Scale Gate(TSG)的模块,用于优化在语义分割任务中多尺度上下文信息的编码。现有的基于Transformer的分割模型在组合不同尺度的特征时没有进行选择,这可能导致次优尺度的特征降低分割的准确性。TSG利用Vision Transformer中的自注意力和交叉注意力的内在属性来选择尺度。TSG是一个高度灵活的即插即用模块,可以轻松集成到任何基于编码器-解码器的层次化视觉Transformer架构中。

2024-08-01 20:13:04 940

原创 《BiFormer: Vision Transformer with Bi-Level Routing Attention》CVPR2023

这篇论文提出了一种新型的视觉Transformer,名为BiFormer,它采用了双层路由注意力(Bi-Level Routing Attention, BRA)机制。注意力机制是视觉变换器的核心构建模块,能够捕获数据中的长期依赖性。然而,这种能力的代价是计算量大和内存占用高。为了解决这个问题,作者提出了一种动态稀疏注意力机制,通过双层路由来实现计算的灵活分配,并具有内容意识。

2024-08-01 17:01:46 2403

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除