用ViT替代卷积网络做密集预测,英特尔实验室提出DPT架构,在线Demo可用

点击上方“迈微AI研习社”,选择“星标★”公众号

重磅干货,第一时间送达

选自丨机器之心

在这项研究中,研究者提出了 DPT 架构。这种 ViT 架构代替了卷积网络作为密集预测任务的主干网络,获得了更好的细粒度和更全局一致的预测。

图像语义分割的目标是将图像的每个像素所属类别进行标注。因为是预测图像中的每个像素,这个任务通常被称为密集预测。

当前,密集预测的架构几乎都是基于卷积网络的,且通常遵循一种模式:将网络分为一个编码器和一个解码器,编码器通常基于图像分类网络,也称为主干,它是在一个大型语料库 (如 ImageNet) 上进行预训练的;解码器聚合来自编码器的特征,并将其转换为最终的密集预测。以往的密集预测架构研究通常关注解码器及其聚合策略,但实际上主干架构的选择对整个模型来说非常关键,因为在编码器中丢失的信息不可能在解码器中恢复。

在英特尔的一项研究中,研究者提出了 DPT 架构(dense prediction transformer)。DPT 是一种用于密集预测的新架构,它仍然基于编码器 - 解码器的设计,但其中利用 transformer 作为编码器的基础计算构建块。

具体而言,研究者使用此前的视觉 transformer(ViT)作为主干架构,将由 ViT 提供的词袋表征重组为各种分辨率下的类图像特征表征,并使用卷积解码器逐步将这些特征表征组合到最终的密集预测中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Charmve

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值