swin transformer的一点见解和疑问

论文:https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2103.14030swin transformer主要该论文的核心思路如下:1)对于每一层特征(H,W,C)降采样,降采样方式没有使用卷积,而是间隔采集像素点,然后将采集后的像素特征concate(H/2,W/2,4C),空间信息转为通道信息;2)每一层都在固定窗口内(如7x7)做attention,相当于局部attention;3)偶数层会有网格线迁移,如下图所示,实现
摘要由CSDN通过智能技术生成

论文:[2103.14030] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (arxiv.org)

swin transformer主要用于backbone和图像分类。

核心思路如下:

输入(H,W,3)的RGB图,第一层像VIT一样分块输出(H/4,W/4,4C)的特征图。接下来进入金字塔swin transformer。每个分辨率的特征图都在固定窗口内(如7x7)做patch attention,相当于局部attention,然后进行降采样进入下一层。降采样不使用卷积,而是每四个相邻的patch组成一组,在通道上进行扩展,分辨率减半,通道数为原来的四倍,后面再接入通道数减半的全连接层。值得注意的是,每个分辨率中会进行窗口移动,如下图所示,为了实现的是局部窗口之间的信息交互,这是本文的最大亮点。该网络的计算复杂低与图像大小成线性关系,而不是平方关系,更省空间。

关于计算复杂度:

式(1)是建模全局信息tran

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值