题目:P2T: Pyramid Pooling Transformer for Scene Understanding
P2T:用于场景理解的金字塔池化Transformer
作者:Yu-Huan Wu; Yun Liu; Xin Zhan; Ming-Ming Cheng
**源码链接:**https://github.com/yuhuan-wu/P2T
摘要
最近,视觉Transformer通过推动各种视觉任务的最前沿取得了巨大成功。视觉Transformer面临的最大挑战之一是图像标记的大序列长度导致高计算成本(二次复杂度)。解决这个问题的一个流行方法是使用单个池化操作来减少序列长度。本文考虑了如何改进现有的视觉Transformer,其中通过单个池化操作提取的池化特征似乎不够强大。为此,我们注意到金字塔池化由于其在上下文抽象方面的强能力,在各种视觉任务中已被证明是有效的。然而,金字塔池化尚未在主干网络设计中被探索。为了弥合这一差距,我们提出将金字塔池化适应到视觉Transformer中的多头自注意力(MHSA)中,同时减少序列长度并捕获强大的上下文特征。插上我们的基于池化的MHSAÿ