【YOLOv8改进】骨干网络: SwinTransformer (基于位移窗口的层次化视觉变换器)(论文笔记+引入代码)
本文提出了一种新型视觉,称为,它能够作为计算机视觉的通用骨干网络。将Transformer从语言领域适应到视觉领域时面临的挑战源于两个领域之间的差异,例如视觉实体的尺度变化大以及图像中像素的高分辨率相比文本中的单词。为了解决这些差异,我们提出了一种分层Transformer,其表示是通过移位窗口计算得出的。移位窗口方案通过将自注意力计算限制在非重叠的局部窗口内,同时也允许跨窗口连接,从而带来更高的效率。这种分层架构具有在不同尺度上建模的灵活性,并且其计算复杂度与图像大小呈线性关系。的这些特性使其与广泛的视觉
复制链接