Aggregating Nested Transformers
论文:https://arxiv.org/abs/2105.12723
代码:https://github.com/google-research/nested-transformer
相关阅读:更多

上图,整图用数字1表示,将整图分为四块(2、3、4、5),每块再分为四块(如,块2分为6、7、8、9),整体来看就像一个金字塔。
这些块经过线性映射作为输入,然后将6、7、8、9 聚合 为 2,同理聚合得到 3、4、5 。最后将2、3、4、5 聚合 为 1 。
其中每个图像块分别进行 局部 self-attention 。
整体层次结构可以通过下面两个关键超参数来确定,每个层次结构中的所有块共享一组参数。
- 块大小 S × S S×S S×S
- 层次数 T d T_d Td
给定一个输入图像的大小 H × W × 3 H×W×3 H×W×3,将每个大小为 S × S S×S S×S 的图像块 线性映射 到一个词向量(词向量维度为 d d d)。然后 所有词向量 切分为块并展平生成 输入 X X X( X X X的shape为 [ b , T n , n , d ] , [ b , 4 , 4 , s × s ] [b,T_n,n,d],[b,4,4,s×s] [b,Tn,n,d],[b,4,4,s×s]), b

NesT是一种新型的Transformer结构,通过层次化的块聚合实现信息的跨块混合。每个图像块首先进行局部self-attention,然后通过3×3卷积和最大池化进行块聚合,形成层次嵌套结构,逐渐扩大“感受野”。论文和代码已公开,研究显示块聚合设计对性能至关重要。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



