论文:NesT (Aggregating Nested Transformers)

NesT是一种新型的Transformer结构,通过层次化的块聚合实现信息的跨块混合。每个图像块首先进行局部self-attention,然后通过3×3卷积和最大池化进行块聚合,形成层次嵌套结构,逐渐扩大“感受野”。论文和代码已公开,研究显示块聚合设计对性能至关重要。
摘要由CSDN通过智能技术生成

Aggregating Nested Transformers

论文:https://arxiv.org/abs/2105.12723
代码:https://github.com/google-research/nested-transformer

相关阅读:更多


在这里插入图片描述

上图,整图用数字1表示,将整图分为四块(2、3、4、5),每块再分为四块(如,块2分为6、7、8、9),整体来看就像一个金字塔。

这些块经过线性映射作为输入,然后将6、7、8、9 聚合 为 2,同理聚合得到 3、4、5 。最后将2、3、4、5 聚合 为 1 。

其中每个图像块分别进行 局部 self-attention


整体层次结构可以通过下面两个关键超参数来确定,每个层次结构中的所有块共享一组参数

  • 块大小 S × S S×S S×S
  • 层次数 T d T_d Td

给定一个输入图像的大小 H × W × 3 H×W×3 H×W×3,将每个大小为 S × S S×S S×S 的图像块 线性映射 到一个词向量(词向量维度为 d d d)。然后 所有词向量 切分为并展平生成 输入 X X X X X X的shape为 [ b , T n , n , d ] , [ b , 4 , 4 , s × s ] [b,T_n,n,d],[b,4,4,s×s] [b,Tn,n,d][b,4,4,s×s]), b

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值