自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 问答 (1)
  • 收藏
  • 关注

原创 MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation

3D 空间中的目标定位是单目 3D 目标检测的一个具有挑战性的方面。6DoF 姿态估计的最新进展表明,预测图像和对象 3D 模型之间的密集 2D-3D 对应图,然后通过 Perspective-nPoint (PnP) 算法估计对象姿态可以实现显着的定位精度。尽管基于深度学习的 2D 对象检测取得了显着进展 [3, 30],但 3D 对应物仍然对准确的对象定位提出了更大的挑战,因为。为了解决这个问题,大量工作利用几何先验并通过 2D-3D 约束解决对象姿态(相机帧中的位置和方向)。

2023-05-25 22:11:20 454 2

原创 SelFlow: Self-Supervised Learning of Optical Flow

第三,叠加初始前向流˙wl t→t+1,负初始后向流−˙wl t+1→t,参考图像F lt 的特征,前向成本量和后向成本量来估计每个级别的前向流。最近的方法建议在计算光度损失时排除那些被遮挡的像素,或者使用额外的空间和时间平滑项来规范流量估计。可以提供非常有价值的信息,特别是对于那些在未来的 It+1 帧中被遮挡但在 It-1 中没有被遮挡的区域。光流学习方法的基本思想 是根据估计的光流 将目标图像向参考图像扭曲,然后使用 光度损失 最小化参考图像和扭曲目标图像之间的差异。来创建遮挡以进行自监督。

2023-05-25 22:07:46 1133

原创 Self-Supervised GANs via Auxiliary Rotation Loss

首先,将最先进的自监督架构用于鉴别器,并优化为最佳可能的表示,这将是很有趣的。受到鉴别器遗忘的主要挑战的激励,我们的目标是给鉴别器注入一种机制,该机制允许学习有用的表示,而不依赖于当前生成器的质量。自监督背后的主要思想是在一个前置任务上训练一个模型,如预测图像块的旋转角度或相对位置,然后从产生的网络中提取表示。在不稳定的在线环境中,神经网络会忘记以前的任务[11,12,13]。在这项工作中,我们利用了两种流行的无监督学习技术,对抗训练和自监督,并朝着弥合有条件和无条件GANs之间的差距迈出了一步。

2023-05-25 22:05:44 682

原创 Self-supervised Learning: Generative or Contrastive

这类方法已经取得了很好的结果,在分类任上已经接近监督学习的效果,同时在一些检测、分割的下游任务上甚至超越了监督学习作为 pre-train的方法。与传统的基于特征的方法相比,深度学习通常遵循所谓的“端到端”方式(原始数据输入,预测输出)。简单的多层感知器具有非常差的泛化能力(总是假设分布外(OOD)样本的线性关系)[145],这导致过度自信(和错误)的预测。然而,在学生的学习过程中,我们通过RandAugment向学生注入噪声,如dropout、随机深度和数据增强,来使得学生能够比教师更好地进行泛化。

2023-05-25 22:03:23 157

原创 Unsupervised Visual Representation Learning by Context Prediction(2015

因此,我们的最终实现采用了。一个理想的自然图像的生成模型既要根据图像的自然分布来生成图像,又要简洁,即寻找不同图像的共同原因并在它们之间共享信息。仅给定一个大的、未标记的图像集合,我们从每个图像中提取随机的片对,并训练卷积神经网络来预测第二个片相对于第一个片的位置。我们的基本假设是,做好这项任务需要理解场景和物体,也就是说,这项任务的良好视觉表示需要提取物体及其角色,以便推理它们的相对空间位置。不幸的是,尽管经过了几十年的不懈努力,无监督的方法还不能从大量全尺寸的真实图像中提取有用的信息。

2023-05-25 22:00:43 579

原创 【目标检测论文阅读笔记】Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Reso

尽管最近基于proposal的 CNN 模型在目标检测方面取得了成功,但由于小的感兴趣区域 (RoI) 包含的信息有限且失真,仍然很难检测到小目标。缓解此问题的一种方法是使用超分辨率 (SR) 技术增强小 RoI 的特征。我们研究了如何提高特征级的超分辨率,特别是对于小目标检测,发现其性能可以通过i)利用适当的高分辨率目标特征作为 SR 模型训练的监督信号和(ii)匹配输入的低分辨率特征 和 目标高分辨率特征训练对 的相对感受野。我们提出了一种新颖的特征级超分辨率方法。

2023-05-22 16:25:58 513

原创 【目标检测论文阅读笔记】Small Object Detection in Remote Sensing Images with Residual Feature Aggregation-Based

本文利用图像超分辨率的概念,使用基于深度学习的检测方法来增强图像分辨率从而检测来自卫星或任何飞行器的遥感图像中的小目标。本文通过结合 循环生成对抗网络(GAN)和残差特征聚合(RFA)来改进当前的超分辨率(SR)框架以提高检测性能,从而为小目标的图像超分辨率提供了基本原理。该方法的新颖之处有三:首先,提出了一个框架,独立于研究中使用的最终目标检测器,即YOLOv3 可以替换为 Faster R-CNN 或任何目标检测器来执行目标检测;其次,在生成器中使用残差特征聚合网络。

2023-05-18 11:13:41 651

原创 【目标检测论文阅读笔记】ECAP-YOLO: Efficient Channel Attention Pyramid YOLO for Small Object Detection in Aerial

由于低分辨率和类似背景的目标,航空图像中小目标的检测仍然是一个难题。随着目标检测技术的最新发展,已经开发出高效和高性能的检测器技术。其中YOLO系列是具有代表性的目标检测方法,轻巧且性能好。在本文中,我们提出了一种通过修改 YOLOv5 来提高航拍图像中小目标检测性能的方法。通过应用第一个有效的通道注意模块对主干进行修改,并提出了通道注意金字塔方法。我们提出了一种有效的通道注意力金字塔 YOLO (ECAP-YOLO)。其次,为了优化小目标的检测,我们。

2023-05-15 10:54:19 384

原创 【目标检测论文阅读笔记】Feature-Enhanced CenterNet for Small Object Detection in Remote Sensing Images

与 anchor-based基于锚点的检测器相比,。然而,在复杂的遥感场景中,使得小目标检测成为一项具有挑战性的任务。为了解决这些问题,我们提出了一种名为的无锚检测器,它。首先,我们设计了一个由特征聚合结构(FAS)和注意力生成结构(AGS)组成的。该模块通过挖掘多尺度上下文信息 并 结合坐标注意机制有助于抑制场景中虚警的干扰,从而提高对小目标的感知。同时,为了满足小目标的高定位精度要求,我们提出了一种新的损失函数。最后,为验证算法性能并为后续研究提供基础,我们。

2023-05-11 16:23:21 1707

原创 【目标检测论文阅读笔记】Focus-and-Detect: A small object detection framework for aerial images

一般来说,检测网络由主干、颈部和头部组成。在这种情况下,骨干模型是为检测任务提取特征的网络,头部是预测边界框和类别的实际检测模型,颈部位于骨干网络和头部网络之间,融合来自骨干模型不同阶段的特征图。检测头有不同的方法,例如单阶段检测和两阶段检测模型。单阶段检测模型在头部模型中不包含区域生成层 [5],而是直接在密集的位置采样上运行检测。另一方面,两阶段模型利用区域生成网络提取用于边界框回归和分类的目标区域。空中目标检测可以归类为一般小目标检测问题的一个例子,是一个新兴领域,最近取得了进展。尽管它。

2023-05-08 16:35:31 579 1

原创 【目标检测论文阅读笔记】Dynamic Head: Unifying Object Detection Heads with Attentions

以前的工作试图提高各种目标检测头的性能,但未能提出统一的观点。在本文中,我们提出了一种新颖的来。通过在用于尺度感知的特征级别之间用于空间感知的空间位置之间以及用于任务感知的输出通道内连贯地结合多个自注意力机制,所提出的方法显著提高了目标检测头的表示能力,而无需任何计算开销。进一步的实验证明了所提出的动态头部在 COCO 基准测试中的有效性和效率。借助标准的ResNeXt-101DCN 骨干网,我们大大提高了流行目标检测器的性能,并在 54.0 AP 上实现了最新的技术水平。

2023-05-04 22:54:50 1806 5

原创 【目标检测论文阅读笔记】Small object detection in remote sensing images based on super-resolution

遥感图像中准确的目标检测非常重要,因为军事和民用领域的安全、交通和救援应用需要充分分析和使用这些图像。针对遥感图像中许多小尺寸目标难以检测的问题,本文提出了一种基于S2A-NET网络的改进S2ANET-SR模型。本文将原始图像和缩小图像同时馈入检测网络,然后设计了缩小图像的超分辨率增强模块,以增强小目标的特征提取,之后,感知损失和纹理匹配损失被提出作为监督。

2023-04-27 17:18:49 1343 1

原创 【目标检测论文阅读笔记】Detection of plane in remote sensing images using super-resolution

由于大量的小目标、实例级噪声和云遮挡等因素,遥感图像的目标检测精度低,漏检率或误检率高。本文提出了一种新的基于SRGAN和YOLOV3的目标检测模型,称为SR-YOLO。解决了SRGAN网络 对超参数的敏感性和模态崩溃问题。同时,YOLOv3中的FPN网络被PANet取代,缩短了最底层和最高层之间的距离SR-YOLO模型通过增强路径丰富各层特征,具有较强的鲁棒性和较高的检测能力。在ucas-高分辨率空中目标检测数据集上的实验结果表明,SR-YOLO取得了优异的性能。

2023-04-25 22:01:05 799

原创 【目标检测论文阅读笔记】Adaptive Anchor Networks for Multi-Scale Object Detection in Remote Sensing Images

遥感图像中准确有效的目标检测在海洋运输、环境监测和军事行动中具有极其重要的作用。由于强大的特征表示能力,基于区域的卷积神经网络(RCNN)被广泛应用于该领域,它首先通过提取的特征图生成候选区域,然后对目标进行分类和定位。然而,大多数现有方法通常使用传统的骨干网络来提取,因为连续的下采样会削弱从小目标检测到的信息。此外,这些方法 采用 滑动窗口策略 在特征图上生成具有预设比例的固定锚点,这不适合遥感图像中的多尺度目标检测。为了解决上述问题,本文提出了一种新颖有效的目标检测框架。

2023-04-25 11:34:04 94

原创 【目标检测论文阅读笔记】Attentional feature pyramid network for small object detection(2022)

最近最先进的检测器通常利用特征金字塔网络 (FPN),因为它具有检测不同尺度对象的优势。尽管由于特征金字塔的设计在目标检测方面取得了重大进展,但在复杂场景中检测低分辨率和密集分布的小目标仍然具有挑战性。为了解决这些问题,我们提出了注意特征金字塔网络,这是一种名为的新特征金字塔架构,它由三个组件组成,以增强小目标检测能力,具体而言:动态纹理注意力、前景感知共同注意力 和 细节上下文注意力。首先,动态纹理注意力通过过滤掉冗余语义以突出显示较低层中的小对象并。

2023-04-21 23:26:14 1445 1

原创 【目标检测论文阅读笔记】Small-object detection based on YOLOv5 in autonomous driving systems

随着自动驾驶领域的快速发展,对更快、更准确的目标检测框架的需求已成为必需。。然而,由于这些目标的复杂性,检测交通标志和交通信号灯等小目标是一项具有挑战性的任务。此外,由于恶劣天气 和 低光照条件导致的的存在,少数图像中存在的复杂性进一步使得难以准确检测小目标。在这篇位置中,我们研究了如何调整现有的目标检测器以解决特定任务,以及这些修改如何影响小目标的检测。为实现这一目标,我们,以在不牺牲大型目标检测精度的情况下 提高其检测小目标的性能,特别是在自动驾驶中。我们将证明。

2023-04-13 17:00:43 1113 1

原创 【目标检测论文阅读笔记】Reducing Label Noise in Anchor-Free Object Detection

当前的anchor-free无锚目标检测器 将空间上落在真值框预定义中心区域内的所有特征标记为正。这种方法会在训练过程中产生标签噪声,因为这些正标记的特征中的一些 可能位于背景或遮挡物目标上或者它们根本不是判别性特征。在本文中,我们提出了一种新的标记策略,旨在减少无锚检测器中的标签噪声。我们将源自单个特征的预测汇总为单个预测。这允许模型在训练期间减少非判别性特征的贡献。我们开发了一种新的单阶段无锚目标检测器PPDet。

2023-04-12 17:25:58 522

原创 【目标检测论文阅读笔记】Extended Feature Pyramid Network for Small Object Detection

小目标检测仍然是一个未解决的挑战,因为很难提取只有几个像素的小物体的信息。虽然特征金字塔网络中的尺度级对应检测缓解了这个问题,但我们发现各种尺度的特征耦合仍然会损害小物体的性能。在本文中,我们提出了 扩展特征金字塔网络 (EFPN),它具有 专门用于小目标检测的超高分辨率 金字塔层级。具体来说,我们设计了一个名为特征纹理传输 (FTT)的新模块,用于超分辨特征 并 同时提取可信的区域细节。此外,我们设计了一个前景-背景平衡的损失函数来缓解前景和背景的区域不平衡。

2023-04-10 21:42:35 743 1

原创 【目标检测论文阅读笔记】CARAFE: Content-Aware ReAssembly of FEatures

特征上采样是许多现代卷积网络架构中的关键操作,例如特征金字塔。它的设计对于目标检测 和 语义/实例分割等密集预测任务至关重要。在这项工作中,我们提出了内容感知特征重组 (CARAFE),这是一种通用、轻量级且高效的运算符来实现这一目标。CARAFE 具有几个吸引人的特性:(1)大视野。与以前仅利用亚像素邻域的作品(例如双线性插值)不同,。(2)内容感知处理。CARAFE 不是对所有样本使用固定内核(例如反卷积),而是启用特定于实例的内容感知处理,从而即时生成自适应内核。

2023-04-07 22:51:34 2577

原创 【小目标检测论文阅读笔记】Small object detection in remote sensing images based on attention mechanism and multi-

由于检测目标分布密集、背景复杂等因素的影响,遥感图像中小目标较多,难以检测。为了解决遥感图像中小物体检测的难题,本文提出了一种名为CotYOLO-v3的目标检测算法。首先,我们重新设计了主干 Darknet-53 中的残差块,将其替换为主干 Darknet-53 中具有上下文信息的 Contextual Transformer (Cot) 块,以提取小目标的上下文信息并增强视觉表示;其次,我们在YOLO-v3的特征融合之前引入了带有注意力机制的浅层信息。

2023-04-04 22:51:31 1742 2

原创 【目标检测论文阅读笔记】Multi-scene small object detection with modified YOLOv4

小目标检测的应用存在于我们日常生活中的许多不同场景中,该课题也是目标检测与识别研究中最难的问题之一。在常规跨阶段局部网络(CSPNet)的“ADD”和“Concat”层之后,增加了一类混合注意模块(MA),以加强对象的空间和通道特征信息;在输入图像大小设置为416*416的条件下对YOLOv4网络结构进行细化后,模型在Pascal VOC数据集上的平均准确率达到87.58%,在VISDRONE数据集上达到26.12%。这些结果表明,在不影响实时性能的情况下,该方法在识别小物体方面明显优于原始检测算法。

2023-04-03 17:07:49 702

原创 【目标检测论文阅读笔记】Lightweight multi-scale network for small object detection

小目标检测在现实世界中有着广泛的应用。在复杂场景中检测小目标非常困难,因为它们的分辨率很低。目前,许多研究在提高小目标检测精度方面取得了重大进展。但是,有些算法不能很好地平衡检测速度和精度。为了解决上述问题,本文利用 多尺度信息的 轻量级 多尺度网络(LMSN)。首先,通过多尺度特征融合单元 在各个尺度上 对语义信息交互 进行显式建模;其次,采用轻量级感受野增强模块增强网络的特征提取能力;最后,采用一种有效的通道注意模块来增强特征表示能力。

2023-03-31 12:04:48 1208 2

原创 【目标检测论文阅读笔记】QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection

虽然深度学习的通用目标检测在过去几年取得了巨大成功,但。促进小目标检测的最常见和有效的方法是使用高分辨率图像或特征图。然而,这两种方法都会导致昂贵的计算,因为计算成本会随着图像和特征尺寸的增加而成正比增长。为了两全其美,我们提出了QueryDet,它使用一种新颖的查询机制来加快基于特征金字塔的目标检测器的推理速度。该管道包括两个步骤:它首先在低分辨率特征上预测小目标的粗略位置,然后使用 由这些粗略位置 稀疏引导的高分辨率特征 计算准确的检测结果。

2023-03-27 21:35:16 2031

原创 【目标检测论文阅读笔记】MSFYOLO: Feature Fusion-Based Detection for Small Objects

(图 2)。在一般的CNN结构中,全连接通常连接在卷积层之后。全连接层的特征个数是固定的,所以网络输入的时候输入的大小也是固定的。

2023-03-23 23:07:10 429 1

原创 【目标检测论文阅读笔记】FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection

由于其固有的特性,小目标在多次下采样后的特征表示较弱,甚至在背景中消失。FPN简单的特征拼接在信息传递中引入了不相关的上下文,进一步降低了小物体的检测性能。为了解决上述问题,我们提出了简单但有效的FE-YOLOv5。(1) 我们设计了来捕捉小目标更具辨别力的特征。全局注意力 和 高级全局上下文信息用于指导浅层的高分辨率特征。全局注意力与跨维度特征交互,减少信息丢失。高级上下文通过非局部网络对全局关系进行建模 来补充更详细的语义信息。(2)我们设计了。

2023-03-23 11:52:49 5820 2

原创 【目标检测论文阅读笔记】RTMDet: An Empirical Study of Designing Real-Time Object Detectors(2022)

RTMDet 针对各种应用场景实现了 tiny/small/medium/large/extra-large 模型大小的最佳 参数-精度权衡,并在实时实例分割和旋转目标检测方面获得了最新的性能。我们希望实验结果可以为设计用于许多目标识别任务的多功能实时目标检测器提供新的见解。结合更好的训练技术,由此产生的名为 RTMDet 的目标检测器在 NVIDIA 3090 GPU 上以 300+ FPS 的速度在 COCO 上实现了 52.8% 的 AP,,例如实例分割和旋转物体检测。在本文中,我们的目标是。

2023-03-16 22:51:28 7264 2

原创 【自监督论文阅读笔记】Contrastive Attention Maps for Self-supervised Co-localization

CUB-200-2011、Stanford Cars、FGVC-Aircraft 和 Stanford Dogs。我们的代码将在线公开供研究社区使用。最近的方法通过采用预测旋转等自监督表示学习方法实现了令人印象深刻的共定位性能。1) 数据集仅包含一个超类,例如鸟类,以及 2) 数据集中没有人工标注的标签。我们的方法很简单,通过广泛的定性和定量评估证明是有效的,在四个数据集上实现了。对比损失函数利用丰富的位置信息,诱导模型有效地激活对象的范围。直接在注意力图上引入了一个新的对比目标。,以提高共定位性能。

2023-03-15 11:09:14 487 1

原创 【自监督论文阅读笔记】Integrally Pre-Trained Transformer Pyramid Networks (2022)

在本文中,我们提出了一个基于掩码图像建模 (MIM) 的整体预训练框架。我们提倡联合预训练 backbone 和 neck,使 MIM 和下游识别任务之间的迁移差距最小。我们做出了。首先,我们通过。其次,我们为特征金字塔。预训练模型称为整体预训练transformer 金字塔网络 (iTPN),可作为视觉识别的强大基础模型。

2023-03-14 15:53:48 1832 1

原创 【自监督论文阅读笔记】Deep Unsupervised Embedding for Remotely Sensed Images Based on Spatially Augmented Momen

卷积神经网络在表征遥感图像方面取得了巨大的成功。然而,缺乏足够的注释数据 (以及RS图像域的高度复杂性)常常使 监督和迁移学习方案 从操作的角度来看受到限制。尽管无监督方法可以潜在地缓解这些限制,但它们经常不能有效地利用关于RS域的相关先验知识,这可能最终限制它们的最终性能。为了应对这些挑战,本文提出了一种新的无监督深度度量学习模型,称为空间增强动量对比度(SauMoCo),它是。基于地理学第一定律,提出的方法 定义了空间增强标准,以揭示土地覆盖 tiles之间的语义关系。

2023-03-10 21:56:48 259 1

原创 【自监督论文阅读笔记】What Makes for Good Views for Contrastive Learning?

数据的多个视图之间的对比学习最近在自监督表示学习领域取得了最先进的性能。尽管取得了成功,但对不同视角选择的影响研究较少。在本文中,我们使用理论和实证分析来更好地理解视图选择的重要性,并认为我们应该减少视图之间的互信息 (MI)同时保持任务相关信息的完整性。为了验证这一假设,我们,旨在通过减少 MI 来学习有效视图。我们还将数据增强视为减少 MI 的一种方式,并表明增加数据增强 确实会导致 MI 降低 并 提高下游分类准确性。

2023-03-08 10:52:58 781 1

原创 【自监督论文阅读笔记】CASTing Your Model: Learning to Localize Improves Self-Supervised Representations

Contrastive Attention-Supervised Tuning 对比注意力监督调优 (CAST)自监督学习 (SSL) 的最新进展在很大程度上缩小了与监督 ImageNet 预训练的差距。我们的代码可在 https://github.com/salesforce/CAST/ 获得。尽管这些方法取得了成功,但它们主要应用于未标记的 ImageNet 图像,并且在对。当前的 SSL 方法在 iconic标志性图像上 表现最佳,而。在 COCO 上的实验表明,,进一步的实验表明,

2023-03-07 21:40:49 396

原创 【自监督论文阅读笔记】Efficient Visual Pretraining with Contrastive Detection

自监督预训练已被证明可以为迁移学习产生强大的表征。然而,这些性能提升是以巨大的计算成本为代价的,最先进的方法需要比监督预训练多一个数量级的计算量。我们通过引入一个新的自监督目标、对比检测来解决这个计算瓶颈,该目标通过来任务表示。该目标从每幅图像中提取丰富的学习信号,从而在各种下游任务上实现最先进的传输精度,同时。特别是,我们最强大的 ImageNet 预训练的模型的性能与 SEER 相当,SEER 是迄今为止最大的自监督系统之一,它使用了 1000 倍以上的预训练数据。最后,我们的目标。

2023-03-06 22:50:57 406

原创 【自监督论文阅读笔记】Emerging Properties in Self-Supervised Vision Transformers

在本文中,我们质疑自监督学习是否为 Vision Transformer (ViT) [16] 提供了与卷积网络 (convnets) 相比突出的新属性。除了使自监督方法适应这种架构的效果特别好之外,我们还进行了以下观察:首先,自监督的 ViT 特征包含关于图像语义分割的显式信息,这在有监督的 ViTs 和卷积网络中都没有那么明显。其次,这些特征也是优秀的 k-NN 分类器,在 ImageNet 上以小 ViT 达到 78.3% top-1。我们的研究还强调了动量编码器[26]、

2023-02-27 21:45:24 4528 1

原创 【自监督论文阅读笔记】On the Pros and Cons of Momentum Encoder in Self-Supervised Visual Representation Learnin

指数移动平均值(EMA 或动量)广泛用于现代自监督学习 (SSL) 方法,例如 MoCo,以提高性能。我们证明,这种动量也可以插入无动量的 SSL 框架中,例如 SimCLR,以提高性能。尽管它被广泛用作现代 SSL 框架中的基本组件,但动量带来的好处还没有得到很好的理解。我们发现它的成功至少可以部分归因于稳定性效应。在第一次尝试中,我们分析了 EMA 如何影响编码器的每个部分,并揭示 编码器输入附近的部分起着微不足道的作用,而后面的部分影响更大。通过监控相对于编码器中每个块的输出的总体损失的梯度,我们观

2023-02-24 22:26:28 418 1

原创 【自监督论文阅读笔记】Unsupervised Learning of Dense Visual Representations

对比自监督学习已成为无监督视觉表示学习的一种有前途的方法。通常,这些方法学习全局(图像级)表示,这些表示对于同一图像的不同视图(即数据增强的组合)是不变的。然而,许多视觉理解任务需要密集(像素级)表示。在本文中,我们提出了与,用于密集表示的无监督学习。VADeR 通过强制局部特征在不同的观察条件下保持不变来学习像素表示。具体来说,像素级对比学习匹配特征(即在不同视图上描述场景相同位置的特征)在嵌入空间中应该靠近,而非匹配特征应该分开。VADeR 为密集预测任务提供了自然表示,并。

2023-02-23 22:37:46 850 2

原创 【自监督论文阅读笔记】Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representat

用于无监督视觉表示学习的对比学习方法已经达到了显著的迁移性能水平。我们认为对比学习的力量尚未完全释放,因为当前的方法,导致表示的。在本文中,我们介绍了用于学习密集特征表示的像素级前置任务。第一项任务。我们还提出了一个pixel-to-propagation 的一致性任务。

2023-02-22 22:14:31 568

原创 【自监督论文阅读笔记】Deeply Unsupervised Patch Re-Identification for Pre-training Object Detectors

无监督预训练旨在学习有利于下游任务的可迁移特征。然而,大多数最先进的无监督方法专注于 学习 图像级分类任务的 全局表示而不是 判别性的局部区域表示,这限制了它们对区域级下游任务(例如目标检测)的可迁移性。为了提高 预训练特征 到 目标检测 的可迁移性,本文提出了深度无监督图像块重识别(DUPR),这是一种简单而有效的无监督视觉表示学习方法。patch Re-ID任务将单个patch视为 pseudo-identity,并在两个视图中 对比学习 其对应关系,使我们能够。

2023-02-21 22:32:28 371 4

原创 【自监督论文阅读笔记】MVP: Multimodality-guided Visual Pre-training

特别是,对 ViT-Base/16 进行 300 个 epoch 的预训练,MVP 在 ADE20K 上报告了 52.4% 的 mIoU,以 6.8% 的令人印象深刻的利润率超过了 BEIT(基线和之前的最新技术水平)。在vision transformers的上下文中,MIM 通过将 token-level 标记级特征 与 预定义空间 对齐来学习有效的视觉表示(例如,BEIT 使用在大型图像语料库上训练的 d-VAE 作为 tokenizer 标记器)。,这在学术界和工业界都引起了越来越多的关注。

2023-02-20 20:54:44 1438

原创 【自监督论文阅读笔记】Learning Transferable Visual Models From Natural Language Supervision

最先进的计算机视觉系统经过训练可以预测一组固定的预定对象类别。这种受限的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据 来指定任何其他视觉概念。是一种很有前途的替代方案,它可以利用更广泛的监督来源。本文证明了是一种有效且可扩展的方式,可以在从互联网收集的 4 亿(图像、文本)对数据集上从头开始学习 SOTA 图像表示。预训练后,使用自然语言来引用学习到的视觉概念(或描述新概念),从而实现模型到下游任务的零样本迁移。

2023-02-17 22:04:39 468 1

原创 【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

本文推出了,这是一个的基础模型,旨在仅使用可公开访问的数据来视觉表示的。EVA 是一种经过预训练的普通 ViT,用于重建以可见图像块为条件的 屏蔽掉的图像-文本对齐(image-text aligned)视觉特征。通过这个前置任务,我们可以有效地将 EVA 扩展到 10 亿个参数,并在图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上,而无需大量监督训练。此外,我们观察到迁移学习性能的质变。

2023-02-15 23:23:59 5967 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除