![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
计算机视觉
文章平均质量分 95
主要用于存放视觉基座模型和语义分割模型的SOTA论文解读
Trouble..
在读研究生
展开
-
BEIT: BERT Pre-Training of Image Transformers论文解读
本文介绍了一种自监督视觉表示模型BEIT,即图像transformer的双向编码器表示。继自然语言处理领域开发的BERT之后,我们提出了一个掩码图像建模任务来预训练vision transformer。具体来说,每张图像在我们的预训练中有两个视图,即image patch和visual token。我们首先将原始图像“tokenize”为视觉标记。然后我们随机屏蔽一些图像补丁,并将它们输入transformer骨干网络。预训练的目标是根据损坏的图像补丁恢复原始visual token。原创 2023-02-08 08:00:00 · 1082 阅读 · 0 评论 -
ViT(Version Transformer)原始论文解读
ViT(Version Transformer)原始论文解读,该文档标志着图像已经进入transformer预训练时代原创 2023-01-10 16:12:20 · 3638 阅读 · 0 评论 -
Segmenter论文解读
图像分割通常在单个图像patch的级别上是模糊的,并且需要上下文信息来达成标签共识。本文介绍了一种用于语义分割的transformer模型——segmenter。与基于卷积的方法相比,我们的方法允许在第一层和整个网络中建模全局上下文。我们以最近的Vision Transformer(ViT)为基础,并将其扩展到语义分割。为此,我们依赖于与图像patch对应的输出嵌入,并使用逐点(point-wise)线性解码器或mask transformer解码器从这些嵌入中获取类标签。原创 2023-01-30 20:37:26 · 2459 阅读 · 0 评论 -
UPerNet:Unified Perceptual Parsing for Scene Understanding论文解读
人类在多个层面上识别视觉世界:我们毫不费力地对场景进行分类并检测内部物体,同时还识别物体的纹理和表面及其不同的组成部分。在本文中,我们研究了一种名为统一感知解析(Unified Perceptual Parsing)的新任务,该任务要求机器视觉系统从给定的图像中识别尽可能多的视觉概念。开发了一个名为UPerNet的多任务框架和训练策略,以从异构图像标注中学习。我们在统一感知解析上对我们的框架进行了基准测试,并表明它能够有效地从图像中分割出广泛的概念。训练后的网络被进一步应用于发现自然场景中的视觉知识。原创 2023-01-17 10:02:13 · 2546 阅读 · 0 评论 -
Swin Transformer Hierarchical Vision Transformer using Shifted Windows论文解读
本文提出了一种新的Vision Transformer,称为Swin Transformer,它能够作为计算机视觉的通用骨干网络。将Transformer从语言转化为视觉的挑战来自于两个领域之间的差异,例如视觉实体规模的巨大变化,以及与文本中的单词相比,图像中的像素分辨率较高。为了解决这些差异,我们提出了一个分层(hierarchical)Transformer,它的表示是用移位窗口(shifted windows)计算的。Swin Transformer在计算机视觉领域均刷新了各类任务的SOTA。原创 2023-01-12 11:09:02 · 870 阅读 · 0 评论 -
Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation论文解读
本文介绍了一种新型的基于纯Transformer的U形编解码器用于医学图像分割。为了充分发挥Transformer的强大功能,我们将Swin Transformer块作为特征表示和远程语义信息交互学习的基本单元。广泛在多器官和心脏分割任务上的实验表明,所提出的Swin-Unet具有良好的性能和泛化能力。原创 2023-01-17 16:11:21 · 2213 阅读 · 0 评论 -
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers论文解读
我们提出了SegFormer,一个简单,高效而强大的语义分割框架,它将transformer与轻量级多层感知器(MLP)解码器统一起来。SegFormer有两个吸引人的特点:1)SegFormer包括一个新颖的层次结构transformer编码器,输出多尺度特征。它不需要位置编码,从而避免了位置编码的插值,从而导致测试分辨率与训练分辨率不同时性能下降。2) SegFormer避免了复杂的解码器。所提出的MLP解码器聚合来自不同层的信息,从而结合局部注意力和全局注意力来呈现强大的表示。原创 2023-01-18 15:35:05 · 695 阅读 · 0 评论 -
IS ATTENTION BETTER THAN MATRIX DECOMPOSITION
Is attention better than matrix decomposition论文解读,阐述了一种新的attention机制,这种机制效果非常明显,在22年的语义分割上已经的得到证明,已经刷新的语义分割的sota原创 2022-11-09 16:59:11 · 2300 阅读 · 0 评论 -
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读
我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。通过重新检查成功分割模型所拥有的特性,我们发现了导致分割模型性能改进的几个关键因素。这促使我们设计一种使用轻量的卷积运算的新型卷积注意力网络。原创 2022-11-09 16:54:08 · 1047 阅读 · 0 评论 -
DeIT:Training data-efficient image transformers & distillation through attention论文解读
在这项工作中,我们只通过在ImageNet上训练产生具有竞争力的无卷积的transformer模型。我们只用了不到三天的时间在一台电脑上训练他们。在没有外部数据的情况下,我们的vision transformer(86M参数)在ImageNet上达到了83.1%(单一模型)的top-1精度。我们提出了一种基于token的蒸馏方式,极大的提升了模型的性能。原创 2023-02-09 08:00:00 · 556 阅读 · 0 评论 -
FCT: The Fully Convolutional Transformer for Medical Image Segmentation 论文解读
我们提出了一种新的transformer,能够分割不同形态的医学图像。医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处于初级阶段。UNet压倒性的成功在于它能够欣赏分割任务的细粒度性质,这是现有的基于transformer的模型目前不具备的能力。为了解决这个缺点,我们提出了全卷积transformer(FCT),它建立在卷积神经网络学习有效图像表示的能力的基础上,并将它们与transformer的能力相结合,有效地捕获其输入中的长期依赖关系。原创 2023-03-02 10:11:39 · 2396 阅读 · 0 评论 -
【论文速递】WACV 2023 - 一种全卷积Transformer的医学影响分割模型
我们提出了一种新的transformer,能够分割不同形态的医学图像。医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处于初级阶段。UNet压倒性的成功在于它能够欣赏分割任务的细粒度性质,这是现有的基于transformer的模型目前不具备的能力。为了解决这个缺点,我们提出了全卷积transformer(FCT),它建立在卷积神经网络学习有效图像表示的能力的基础上,并将它们与transformer的能力相结合,有效地捕获其输入中的长期依赖关系。原创 2023-03-06 14:58:22 · 2076 阅读 · 3 评论 -
【论文精读】Arxiv 2023 - Segment Anything
我们介绍了Segment Anything (SA)项目:一个用于图像分割的新任务、模型和数据集。在数据收集循环中使用我们的高效模型,我们构建了迄今为止(到目前为止)最大的分割数据集,在1100万张授权的图像上拥有超过10亿个掩码。该模型被设计和训练为可提示的,因此它可以将零样本迁移到新的图像分布和任务。我们评估了它在许多任务上的能力,发现它的零样本表现令人印象深刻——经常与之前的完全监督结果媲美,甚至更好。原创 2023-04-12 11:28:04 · 1181 阅读 · 1 评论 -
【论文精读】ISBI 2022 - Retinal Vessel Segmentation with Pixel-wise Adaptive Filters
由于视网膜血管的纹理复杂和成像对比度低,导致精确的视网膜血管分割具有挑战性。以前的方法通常通过级联多个深度网络来细化分割结果,这既耗时又低效。在本文中,我们提出了两种新的方法来应对这些挑战。首先,我们设计了一个轻量级模块,称为多尺度残差相似性聚集(multi-scale residual similarity gathering, MRSG),以生成逐像素自适应滤波器(point-wise adaptive filters, PA-Filter)。原创 2023-04-24 17:16:59 · 873 阅读 · 0 评论