​南开&阿里提出P2T:基于金字塔池化的视觉Transformer!可用于各类下游场景理解任务!...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

P2T: Pyramid Pooling Transformer for Scene Understanding

作者单位:南开大学,阿里巴巴

论文:https://arxiv.org/abs/2106.12011

代码:https://github.com/yuhuan-wu/P2T

本工作解决了视觉transformer中的两大问题:

1) 传统的Multi-Head Self-Attention (MHSA) 需要大量的计算、空间资源。

2) 最近新提出的视觉transformer在图像分类中被过度地开发和调整,却忽视了图像分类(单一场景,与MLP较为相似)和各类下游场景理解任务(复杂场景,丰富结构和内容信息)的区别。

具体而言,本文注意到pyramid pooling因其强大的抽象上下文能力在各类视觉任务上的表现都十分出色,且其空间不变性的自然属性适合解决结构信息的丢失问题(问题2)。本文第一次将pyramid pooling引入到视觉transformer中,从而减少使用传统MHSA带来的过高计算量和存储空间(问题1)。

通过将基于pyramid pooling的P-MHSA嵌入到transformer内,本文构建了一个下游任务导向的视觉transformer,本文将其命名为pyramid pooling transformer (P2T)

为了证明P2T的有效性,本文还在语义分割、目标检测、实例分割、显著性物体检测等多个任务与多种方法进行对比,结果显示P2T在多种下游任务上都展现了其显著的卓越性。

语义分割

在ADE20K validation set上的对比结果

在Cityscapes validation set上的对比结果

目标检测

在COCO val2017上的对比结果

PASCAL VOC 2007上的对比结果

实例分割

在COCO val2017上的对比结果

显著性物体检测

在DUTS-TE、DUT-OMORN、PASCAL-S数据集上的对比结果


图像分类

虽然本文设计的P2T并未针对图像分类进行设计,但仍然在ImageNet-1K取得了极强竞争力的结果。

P2T论文下载

后台回复:P2T,即可下载上述论文PDF
CVPR和Transformer资料下载

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群▲点击上方卡片,关注CVer公众号
整理不易,请给CVer点赞和在看
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值