针对如何在图像上更好地用transformer的改进。token降采样,就是把相邻的token concate起来;把图像分块,在局部做self-attention,然后加入了滑动机制,使得不同的分块可以互相attention到。效果挺好,比较简洁。
深度学习Transformer(七)——Swin Transformer Hierarchical Vision Transformer using Shifted Windows
最新推荐文章于 2024-05-18 11:35:43 发布
针对如何在图像上更好地用transformer的改进。token降采样,就是把相邻的token concate起来;把图像分块,在局部做self-attention,然后加入了滑动机制,使得不同的分块可以互相attention到。效果挺好,比较简洁。