近期,华为诺亚方舟实验室的研究者提出了一种新型视觉Transformer网络架构,Transformer in Transformer,性能表现优于谷歌的 ViT 和 Facebook 的DeiT。该网络中的TNT模块,通过内外两个Transformer 联合提取图像局部和全局的特征。
Transformer in Transformer 架构
具体而言,新提出的 TNT block 使用一个外 Transformer block 来对 patch 之间的关系进行建模,用一个内 Transformer block 来对像素之间的关系进行建模。通过 TNT 结构,研究者既保留了 patch 层面的信息提取,又做到了像素层面的信息提取,从而能够显著提升模型对局部结构的建模能力,提升模型的识别效果。该网络在ImageNet 图像识别任务上,Top-1正确率达到81.3%。
智源社区特邀请论文《Transformer in Transformer》一作华为诺亚方舟实验室高级研究员韩凯就其研究过程及内容做报告分享,欢迎大家参与交流讨论。
报告主题:Transformer in Transformer
报告时间:2021年3月