用ViT替代卷积网络做密集预测，英特尔实验室提出DPT架构，在线Demo可用

Charmve

已于 2022-02-08 16:40:51 修改

阅读量318

点赞数

分类专栏：计算机视觉 | 顶会论文研读计算机视觉实战 | 练手项目，开放源码文章标签：卷积大数据算法 python 计算机视觉

于 2021-10-26 19:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Charmve/article/details/120984704

版权

计算机视觉实战 | 练手项目，开放源码同时被 2 个专栏收录

82 篇文章 86 订阅 ¥69.90 ¥99.00

订阅专栏

计算机视觉 | 顶会论文研读

107 篇文章 73 订阅

订阅专栏

点击上方“迈微AI研习社”，选择“星标★”公众号

重磅干货，第一时间送达

选自丨机器之心

在这项研究中，研究者提出了 DPT 架构。这种 ViT 架构代替了卷积网络作为密集预测任务的主干网络，获得了更好的细粒度和更全局一致的预测。

图像语义分割的目标是将图像的每个像素所属类别进行标注。因为是预测图像中的每个像素，这个任务通常被称为密集预测。

当前，密集预测的架构几乎都是基于卷积网络的，且通常遵循一种模式：将网络分为一个编码器和一个解码器，编码器通常基于图像分类网络，也称为主干，它是在一个大型语料库 (如 ImageNet) 上进行预训练的；解码器聚合来自编码器的特征，并将其转换为最终的密集预测。以往的密集预测架构研究通常关注解码器及其聚合策略，但实际上主干架构的选择对整个模型来说非常关键，因为在编码器中丢失的信息不可能在解码器中恢复。

在英特尔的一项研究中，研究者提出了 DPT 架构（dense prediction transformer）。DPT 是一种用于密集预测的新架构，它仍然基于编码器 - 解码器的设计，但其中利用 transformer 作为编码器的基础计算构建块。

具体而言，研究者使用此前的视觉 transformer(ViT)作为主干架构，将由 ViT 提供的词袋表征重组为各种分辨率下的类图像特征表征，并使用卷积解码器逐步将这些特征表征组合到最终的密集预测中。

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
用ViT替代卷积网络做密集预测，英特尔实验室提出DPT架构，在线Demo可用

在这项研究中，研究者提出了 DPT 架构。这种 ViT 架构代替了卷积网络作为密集预测任务的主干网络，获得了更好的细粒度和更全局一致的预测。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Charmve 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。