恒源云(GpuShare)_MaskFormer:语义分割可以不全是像素级分类

文章来源 | 恒源云社区

原文地址 | MaskFormer

原文作者 | 咚咚


论文:Per-Pixel Classification is Not All You Need for Semantic Segmentation

论文地址:https://arxiv.org/pdf/2107.06278.pdf

代码地址: https://bowenc0221.github.io/maskformer

在这里插入图片描述

摘要

  1. 目前研究多将语义分割算法作为一种像素级的分类算法,而将实例分割作为一种mask分类算法
  2. 论文的重要观点是:mask分类任务能够同时有效解决语义和实例级的分割任务
  3. 基于上述观念,提出了MaskFormer,一种预测二值mask(每个mask用于预测一个类别)的mask分类模型
  4. 实验显示,MaskFormer在ADE20K和COCO分割任务上实现state-of-the-art

从像素级分类到mask级分类

  1. 首先介绍像素级分类和mask级分类
  2. 随后介绍本文的mask级分类算法
  3. 最后提出了两个不同的前向传播算法
像素级分类

大家应该对像素级分类很熟悉了,可以用公式表达为 y = { p i ∣ p i ∈ Δ k } i = 1 H ⋅ W y={\lbrace p_i|p_i \in\Delta^k}\rbrace_{i=1}^{H \cdot W} y={ pipiΔk}i=1HW,其中 Δ K \Delta^{K} ΔK,具体含义就是一张图像上每个像素点的K类别概率分布

最后使用cross entropy对每个像素进行loss计算

MASK级分类

在这里插入图片描述

mask级分类将分割任务拆分为两个部分:

  1. 将图像分割成N个区域(N不需要等于类别K),使用二进制 { m i ∣ m i ∈ [ 0 , 1 ] H × W } i = 1 N \lbrace m_i|m_i \in[0,1]^{H \times W}\rbrace_{i=1}^N { mimi[0,1]H×W}i=1N表示
  2. 这N个区域的每个区域内部是属于同一个类别,所以还需要对其进行类别预测,可以表示为 z = { ( p i , m i ) } i = 1 N z=\lbrace (p_i,m_i)\rbrace_{i=1}^N z={ (pi,mi)}i=1
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值