6.一脚踹进ViT——Swin Transformer(下)

16 篇文章 5 订阅
9 篇文章 2 订阅

6.一脚踹进ViT——Swin Transformer(下)

一、Shift-Window Attention

在这里插入图片描述

image输入后提一个patch块,如果是4×4=16个pixel,就把它展开,来做conv/proj,经过处理后它就变成1×embed dim的tensor, 每一个就叫做embedding或vision tokens,真正输入Transformer的就是embedding或vision tokens,我们在此基础上需要进行切分window

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U49jPYv3-1678526687222)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230310211749075.png)]

上一节我们就是这样的进行window的划分,我们上图划了四个窗口,每一窗口里面一个小的格子就是embedding或vision tokens,Swin Transformer的第一步就是对单个窗口来做self-attention,但有一个问题,Window之间没有交互,那我希望每个token能看到gloab的信息应该怎么做呢?

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CFnsTTaY-1678526687223)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230310212751296.png)]

最简单的办法可以类似卷积一样,画一个window,在某一个window大小上做一个滑窗操作,在该window中做self-attention

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XyvhfNf6-1678526687223)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230310213256135.png)]

Swin 论文提出了 Shift-Window Attention,之前是每个颜色单独算自己的attention,与其他颜色无关,为了改变这种情况,Swin在算完一次Window的Self-attention之后,更换了划分window的方式,这样划分完之后,窗口内的注意力就有了其他颜色的token

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3Cb5dZWF-1678526687223)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230310213331198.png)]

所以我们的Task:对每个Window单独计算WMSA,可以单独做,但我们要找一个高效的方式来做

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Vj7IfGD0-1678526687223)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230310215236184.png)]

首先看一下位移怎么做,1<<3 ,01变成1000,二进制变为十进制就是8,那这种方式就是位移的操作,可以用numpy.roll,tensor.roll来实现,其中用到的是循环填充。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZzUv7VzK-1678526687224)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230310220256507.png)]

将将切过的图重新标号,第一次向右shift A的宽度,再往下shift

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BUlMxpCO-1678526687224)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230310220534098.png)]

从下到上 E FD HB IGAC,对于每个window都是M×M大小的,对于每个窗口,进行 Q 和 K的计算得到[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8A1PWUsc-1678526687224)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230310220853008.png)]

如果只算E的,和之前的一样,如果算F D,对于左半边F,不需要管右边D的内容,需要将它遮住,如果计算右边,也同样不需要看到左侧,将其遮住或者置为0。

所以我们需要找个 mask,把不需要的地方遮挡住,对于shift window的四方格,需要对每个window中找到对应的mask。

此时我们不需要管颜色,只需要管红框,第一个不需要设置Mask

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-88Pjc9hY-1678526687224)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311085853599.png)]

对于每个token需要展开,这样设置mask就可以计算单个红框内的值,只把红色和红色,红色和黄色的结果保留,而红色和蓝色结果就舍去了,这样设计mask左部分F的self-attention就可计算出来

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-N0CEKZgV-1678526687224)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311085951862.png)]

同理,右侧mask这样设计

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4uchPI6S-1678526687224)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311090214274.png)]

所以这一部分的mask需要这样设计

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sLkovcQM-1678526687225)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311090637323.png)]

同理对于接下来的M×M窗口如何设计呢? 上方同样只关注绿 黄

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ohb5zmD7-1678526687225)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311090706952.png)]

下方只关注蓝 红

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LFZWKxLV-1678526687225)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311090749535.png)]

合并起来,即

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-N9V7Xsm4-1678526687225)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311090801665.png)]

最后一部分每个颜色为一个小窗口,自己算自己的

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yIjktwSX-1678526687225)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311090830239.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Plef828r-1678526687225)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311090839814.png)]

四个放到一起为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WmRZbpDp-1678526687225)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311090912747.png)]

这样设计完后,我们怎么进行mask呢?

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wqY2Cy3v-1678526687225)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311090924464.png)]

需要的部分是0,不需要的地方选了-100,因为softmax中x越小,得到的值越接近于0,越不影响attention

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-N6l5BCXr-1678526687226)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311092008055.png)]

因为我们之前为了高效计算,进行了cycic shift,但是如果我们要最后计算的时候,要恢复原来的shape,需要反向cycic shift

二、Relative Position Bias

有一个tensor,尺寸是3×3,其中有9个vision tokens,将其拉平,然后得到Q×K’后 9×9的attention Weight的矩阵,这时我们需要加一个B

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nwxyg4f0-1678526687226)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311092805300.png)]

那这个B干什么的呢,它是一个偏置,可学习的bias,加一个相对位置的bias,希望把相对位置信息给attention weight的信息加进去。

更详细的说,如果有9个token,那它有几个相对位置呢?

我们只看同一行用相同颜色的表示,竖直方向位置变化就是不变、+1、+2、-1、-2,那同一行位置变化就是0,那么黄色比蓝色位置多1

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sEDlU5O9-1678526687226)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311093128043.png)]

对于横向来看,位置偏置如图,[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-er1awOAy-1678526687226)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311093453946.png)]

那我们合起来会怎么样呢?

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-otmlwHsv-1678526687226)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311093616712.png)]

这个就是针对于横向和纵向的偏置,它一共有25种相对位置,我们可以用更少的数量表示,用索引标记

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kPSFSQz8-1678526687226)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311095744346.png)]

我们有这样一个可学习的Table,最后得到相对位置的索引之后,我们查询Table将其填入 Relative Position Bias中,与Attention weight相加。

这里需要注意的是尺寸的一个问题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OM7P6Zev-1678526687226)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311100635948.png)]

假如我们的window为 M×M,那我们Q×K’ 为 M²×M²,我们的Relative Position Bias Table为(2M-1)×(2M-1)。

实现的话,我们可学习的Relative Position Bias Table,创建一个parameter,shape为2倍的(window_size-1)× 2倍的(window_size-1),那我们的头可以是单独的也可以是公用的,Swin中给每个头单独来做。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dJQUxNXf-1678526687226)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311102041871.png)]

设置完后还需要去注册一下,将值注册到层里面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xXmajwR8-1678526687227)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311102032888.png)]

三、实践部分:主要是实现Shift-Window-Multihead-Self-Attention

1. img_mask部分

假设我们shift已经做完了,我们现在有十字格,在算mask之前,要算image mask,建立mask.py文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CfF41C5O-1678526687227)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311102750034.png)]

有了image mask之后,我们会将它切分然后展开,看下方,针对于第四行,我们最后4578这部分,我们的目标就是这个,最终就能生成左下角的Attention Mask

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wWbK5FMV-1678526687227)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311102821820.png)]

首先就是生成 img_mask的代码

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xxi26das-1678526687227)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311104503057.png)]

我们使用 window_size大小,然后slice进行划分,第一个h 从(0, -window_size),w从(0, -window_size),就把第一个window切出来,进而切下一个,w变为(-window_size,-shift_size),就把1 切出来了,经过这样操作之后,就把图中彩色部分变为黑白部分。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PHtQMq4k-1678526687227)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311104621420.png)]

接下来就要做window_partition,按照十字刀来切,要对每一个四方格块来算,而每个块中的不统一,我们要经过mask来得到自己想要的部分,但第一步还是进行切分

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4jM9PD5r-1678526687227)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311105056427.png)]

切分后,给他把每一个window 拉平,把[1,H,W,1]的最后一维去掉,然后把H和W拉平

attn_mask = windows_mask.unsqueeze(1) - windows_mask.unsqueeze(2)
# [n,1, ws*ws] - [n, ws*ws, 1]

此时我们进行相减,在做什么呢?在Numpy中如果有一个4行一列的向量和一行三列的向量做加法,最终得到的是四行三列的矩阵,他会对于维度进行扩充,这就叫broadcasting

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DQFzFr3e-1678526687228)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311105834339.png)]

那我们相减操作在干什么呢?我们将展开的4578,扩充为列向量和行向量之后,进行相减,得到的是0的部分,我们可以将不是0的部分设置为255,图中是蓝色区域这就是我们要的atten_mask,将其返回即可

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GmTgL0io-1678526687228)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311110054751.png)]

代码如下

# TODO: generate attn mask
def generate_mask(window_size=4, shift_size=2, input_resolution=(8,8)):
    H,W = input_resolution
    img_mask = torch.zeros([1, H, W, 1])
    h_slices = [slice(0, -window_size), #a[slice(..)] =  a[0: -window_size]
                slice(-window_size,-shift_size),
                slice(-shift_size,None)]

    w_slices = [slice(0, -window_size),
                slice(-window_size, -shift_size),
                slice(-shift_size, None)]

    cnt = 0
    for h in h_slices:
        for w in w_slices:
            img_mask[:, h, w,:] = cnt
            cnt += 1

    windows_mask = windows_partition(img_mask, window_size= window_size)
    # 考虑尺寸需要reshape,拉平
    windows_mask = windows_mask.reshape([-1, window_size*windows_mask])

    attn_mask = windows_mask.unsqueeze(1) - windows_mask.unsqueeze(2)  # [n,1, ws*ws] - [n, ws*ws, 1]
    attn_mask = torch.where(attn_mask!=0,
                            torch.ones_like(attn_mask)*255,
                            torch.zeros_like(attn_mask))  #如果是0,不管,不是0,设置为255
    return attn_mask

在main函数里调用,来输出展示

def main():
    # TODO: main
    mask = generate_mask()
    print(mask.shape)
    mask = mask.cpu().numpy().astype('uint8')
    for i in range(4):  #4个子window
        for j in range(16): # 16*16的尺寸
            for k in  range(16):
                print(mask[i,j,k], end='\t')
            print()
        im = Image.fromarray(mask[i, :, :])
        im.save(f'{i}.png')
        print()
        print()
    print()
2. 实现shift window self window

从上一节课的main 出发,新建一个Swin_Transformer_add_shift,加入swin_block_sw_msa,对于SwinBlock进行一个修改,它做的其实就是图中的流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LlbDv4DE-1678526687228)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311113726626.png)]

这里做了两次变换,第一次是 循环移位,第二次是循环移位后,切window,展开token做注意力,做完之后将其reverse,再将窗口复原回去。

SwinBlock中 forward代码如下

class SwinBlock(nn.Module):
   def forward(self,x):
        H, W = self.reolution
        B, N, C =x.shape

        h = x
        s = self.attn_norm(x)
        #切 window
        x =  x.reshape([B, H, W, C])

        ##### Begin
        # TODO: shift window
        if self.shift_size > 0:
            # 先向右再往下挪
            shifted_x = torch.roll(x, shifts=(-self.shift_size,-self.shift_size), axis=(1,2))
        else:
            shifted_x = x
        # TODO: compute window attn
         # 切方块
        x_windows = windows_partition(shifted_x, self.window_size)
        # 将其展开序列
        x_windows = x_windows.reshape([-1, self.window_size*self.window_size,C])
        attn_windows = self.attn(x_windows, mask=self.attn_mask)
        attn_windows = attn_windows.reshape([-1, self.window_size, self.window_size,C])
        shifted_x = windows_reverse(attn_windows, self.window_size)

        # TODO: shift back
        if self.shift_size > 0:
            # 先向右再往下挪
            x = torch.roll(shifted_x, shifts=(self.shift_size,self.shift_size), axis=(1,2))
        else:
            x = shifted_x
        ##### End

        x_windows = windows_partition(x, self.window_size)
        # [B * num_patches, ws, ws, c]
        x_windows = x_windows.reshape([-1,self.window_size*self.window_size, C])

        attn_windows = self.attn(x_windows)

        # 做完attention 将它复原
        attn_windows = attn_windows.reshape([-1, self.window_size, self.window_size, C])
        x = windows_reverse(attn_windows, self.window_size, H, W)
        # [B, H ,W ,C]
        # 但是做mlp中 输入不是它
        x = x.reshape([B, H*W, C])

        x = h + x
        h = x

        x = self.mlp_norm(x)
        x = self.mlp(x)
        x = h + x
        return x

这里我们调用了attn_mask,所以在 init中初始化,代码如下:

def __init__(self, dim, input_reslution, num_heads, window_size,shift_size):
    super().__init__()
    self.dim = dim
    self.reolution = input_reslution
    self.window_size =window_size

    self.shift_size = shift_size

    self.attn_norm = nn.LayerNorm(dim)
    self.attn = WindowAttention(dim, window_size,num_heads)

    self.mlp_norm = nn.LayerNorm(dim)
    self.mlp = Mlp(dim)

    # TODO: generate mask and register buffer
    if self.shift_size > 0:
        attn_mask = generate_mask(self.window_size, self.shift_size, self.reolution)
    else:
        attn_mask = None
    self.register_buffer('attn_mask', attn_mask)

最后一部分,我们在WindowAttention内,我们将mask传入了,要将mask加进去,来做attention

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YKr7dSrE-1678526687228)(C:\Users\qiaoqiang\AppData\Roaming\Typora\typora-user-images\image-20230311160326285.png)]

我们要将Mask加到原图中,来算attn,其中最重要的就是attn与mask维度不一致,需要进行变换reshape,unsqueeze等等

class WindowAttention(nn.Module):
    def forward(self,x,mask=None):
        # x: [B, num_patches, embed_dim]
        B, N, C = x.shape
        print('xshape=', x.shape)
        qkv = self.qkv(x).chunk(3, -1)
        q, k, v = map(self.tranpose_multi_head, qkv)

        q = q * self.scale
        attn = torch.matmul(q, k.transpose(-1,-2))
        # [B * num_windows, num_heads, num_patches, num_patches]
        print('attn shape=',attn.shape)

        ##### Begin: Mask
        # TODO: reshape and add mask if mask is not none
        if mask is None:
            attn = self.softmax(attn)
        else:
            # mask : [num_windows, num_patches, num_patches]
            # attn:   [B * num_windows, num_heads, num_patches, num_patches]
            attn = attn.reshape([B//mask.shape[0],mask.shape[0],self.num_heads, mask.shape[1], mask.shape[1]])
            # attn:   [B, num_windows, num_heads, num_patches, num_patches]
            # mask : [    num_windows, 1,         num_patches, num_patches]
            attn = attn+ mask.unsqueeze(1).unsqueeze(0)
            # mask : [1,  num_windows, 1,         num_patches, num_patches]
            attn = attn.reshape([-1,self.num_heads,mask.shape[1],mask.shape[1]])
            # attn:   [B * num_windows, num_heads, num_patches, num_patches]

        ##### End: Mask


        out = torch.matmul(attn, v)   # [B, num_heads, num_patches, dim_head]
        out = out.permute([0, 2, 1, 3])
        #  # [B, num_patches, num_heads, dim_head]    num_heads * dim_head= embed_dim
        out = out.reshape([B, N, C])
        out = self.proj(out)
        return out

运行结果如下:

在这里插入图片描述

完整代码之后会加入资源中,目前没有实现 Relative Position Bias,其他全部实现了!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>