Transformer in Transformerl论文笔记
一、introduction
1、本文出自华为诺亚方舟,作者是韩凯,发布于NeurIPS。
2、NeurIPS,全称Annual Conference on Neural Information Processing Systems,是人工智能领域的顶级会议,与ICML并称为人工智能领域难度最大,水平最高,影响力最强的会议!
3、原代码链接将在
1、Transformer是一种基于自注意力机制的新型神经网络,近年来表现出超越CNN、RNN邓等传统神经网络的能力。
2、Transformer最开始应用于NLP任务,2020年10月,提出的ViT模型,使纯transformer架构可很好地用于视觉识别。
二、motivation
1、ViT存在不足的地方,本文在ViT基础上,编码patch内的pixel之间的结构信息。
2、将图像切块输入Transformer,图像块拉直成向量向量进行处理,忽略了图像块内部的局部关系和结构信息。通过将块投影到一个矢量,空间结构被破坏了,很难学习。
三、method
使用两个transformer,外transformer负责编码大小为16 × 16 16 \times 1616×16的patch之间的关系,内transformer负责编码大小为4 × 4 4 \times 44×4的super-pixel之间的关系。
四、experiment
[1]https://blog.csdn.net/ms961516792/article/details/114544048