语义分割文献+开源代码（记录）

最新推荐文章于 2024-08-08 07:49:23 发布

AAAmazing

最新推荐文章于 2024-08-08 07:49:23 发布

阅读量2.2k

点赞数 1

分类专栏：语义分割文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/AAAmazing/article/details/125906644

版权

语义分割专栏收录该内容

1 篇文章 1 订阅

订阅专栏

1、

作者：我爱计算机视觉
链接：https://zhuanlan.zhihu.com/p/543619275
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

#医学图像分割#

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

伊朗科学技术大学&亚琛工业大学&Shahid Beheshti University&蒙特利尔大学等

卷积神经网络（CNN）一直是医学图像分割任务的共识。然而，由于卷积操作的性质，它们在建模长距离依赖关系和空间相关性方面受到限制。尽管 transformers 最早是为了解决这个问题而开发的，但它们不能捕捉低层次的特征。相反，事实证明，局部和全局特征对于密集预测至关重要，例如在具有挑战性的背景下进行分割。

本篇论文提出 HiFormer，一种有效连接CNN和 transformer 的新型方法，用于医学图像分割。具体来说，作者使用开创性的 Swin transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示。为了确保从上述两个表征中获得的全局和局部特征的精细融合，在编码器-解码器结构的跳转连接中提出了一个双级融合（DLF）模块。

在各种医学图像分割数据集上进行的大量实验表明，HiFormer在计算复杂度以及定量和定性结果方面比其他基于CNN、基于 transformer 和混合方法更有效。

已开源：https://github.com/amirhossein-kz/HiFormer

论文：https://arxiv.org/abs/2207.0851

2、

作者：我爱计算机视觉
链接：https://zhuanlan.zhihu.com/p/541854783
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

#语义分割#

Refign: Align and Refine for Adaptation of Semantic Segmentation to Adverse Conditions

苏黎世联邦理工学院

由于在恶劣的视觉条件下记录的图像缺乏密集的像素级语义标注，因此研究人员对无监督域适应（UDA）对这类图像的语义分割产生了浓厚的兴趣。UDA 将在正常条件下训练的模型适应于目标不良条件下的领域。同时，具有驾驶场景的多个数据集提供了多种条件下相同场景的相应图像，这可以作为一种弱监督的域适应形式。

作者提出Refign，一个对基于自训练的UDA方法的通用扩展，它利用了这些跨域的对应关系。Refign包括两个步骤：(1)使用不确定性感知的密集匹配网络将正常条件下的图像与相应的不良条件下的图像对齐，(2)使用自适应标签校正机制将不良预测与正常预测进行完善。作者设计自定义模块来简化这两个步骤，并在几个不利条件的基准上为领域自适应语义分割设定了新的技术水平，包括ACDC和Dark Zurich。

另外，该方法没有引入额外的训练参数，计算开销最小，仅在训练期间，并且可以作为一个落地扩展来改进任何给定的基于自训练的UDA方法。

将开源：https://github.com/brdav/refign

论文：https://arxiv.org/abs/2207.0682

3、

作者：我爱计算机视觉
链接：https://zhuanlan.zhihu.com/p/540616703
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

#Transformer#

Dual Vision Transformer

京东&多伦多都会大学

本篇文章提出 Dual Vision Transformer（Dual-ViT）架构，旨在缓解成本问题。它包含一个关键的语义途径，可以更有效地将标记向量压缩成全局语义，并降低复杂度。然后，这种压缩的全局语义作为有用的先验信息，通过另一个构建的像素路径，学习更精细的像素级细节。再之后，语义路径和像素路径被整合在一起，并被联合训练，通过两个路径平行地传播增强的自注意信息。因此，Dual-ViT 能够在不影响准确性的情况下降低计算的复杂性。通过经验证明，Dual-ViT 在降低训练复杂度的同时提供了比 SOTA Transformer 架构更高的准确性。

已开源：https://github.com/YehLi/ImageNetModel

论文：https://arxiv.org/abs/2207.04976

4、

作者：我爱计算机视觉
链接：https://zhuanlan.zhihu.com/p/534493711
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

图像分割是关于使用不同语义对像素进行分组，例如类别或实例，其中每个语义选择定义了一个任务。虽然只有每个任务的语义不同，但当前的研究重点是为每个任务设计专门的结构。作者提出了一种能够处理任何图像分割任务（全景、实例或语义）的新结构——Masked-attention Mask Transformer（Mask2Former）。

它的关键组成部分包括掩蔽注意力（masked attention），它通过在预测的mask区域内约束交叉注意力来提取局部特征。除了将研究工作量减少至少三倍外，它在四个流行数据集上的表现也大大优于最好的任务特定的结构。最值得注意的是，Mask2Former为全景分割（COCO上为57.8 PQ）、实例分割（COCO上为50.1 AP）和语义分割（ADE20K上为57.7 mIoU）任务上达到新的SOTA水平。