transformer论文解读_Transformer席卷CV

最新推荐文章于 2024-07-31 22:47:44 发布

别了KV

最新推荐文章于 2024-07-31 22:47:44 发布

阅读量945

点赞数

文章标签： transformer论文解读

本文链接：https://blog.csdn.net/weixin_30990605/article/details/112355699

版权

Vision Transformer

简单回顾

Transformer是nlp领域的常见模型了，在Attention is All You Need一文中凭借着嚣张的题目和明显的效果席卷了nlp的各个领域。最近CV领域也出现了一些使用Transformer的论文，比如目标检测的DETR，以及今天介绍的Vision Transformer。

经典的Transformer分为Encoder和Decoder两个模块，其中最主要的部分就是Multi-Head Attention。Self Attention的操作相信很多人已经有所了解，我这里简单回顾一下。

而这里的Decoder部分会多一个mask，主要作用就是在解码过程中避免模型看到未来信息了，因为是一并输进去的，比如输入8个词，想要解码出10个词，那么这10个词就要在解码第一个单词时mask掉后面9个单词。具体做法就是生成一个上三角矩阵。

如果想复习一遍Attention的可以看看李宏毅老师讲解的Transformer，slide

ViT

Vision Transformer的代码已经在github上公开了，实现非常简单，点击阅读原文或者此处链接repo.

调用起来非常简单：

import torch
from vit_pytorch.efficient import ViT
from linformer import Linformer

efficient_transformer = Linformer(
    dim = 512,
    seq_len = 4096 + 1,  
    # 64 x 64 patches + 1 cls token
    depth = 12,
    heads = 8,
    k = 256
)

v = ViT(
    dim = 512,
    image_size = 2048,
    patch_size = 32,
    num_classes = 1000,
    transformer = efficient_transformer
)

img = torch.randn(1, 3, 2048, 2048) 
# your high resolution picture
v(img) 
# (1, 1000)

我这里从源码层面来解读一下这篇论文。

分块(patch)

这篇论文主要做的是分类任务，主要思想是使用Transformer Encoder部分去做分类，跟nlp的一样，会在图片序列中加入分类的token，图片的序列则是由一张图片切成多个patch得到。shape的变化是，其中.

在代码中是一句话的事情，用了einops这个库。

x = einops.rearrange(img, 'b c (h p1) (w p2) -> b (h w) (p1 p2 c)', p1 = p, p2 = p)

位置编码(positional encoding)

这里的位置编码并没有使用传统的Transformer的cos sin的那套编码方式。

而是采用随机初始化，之后再训练学习出来的

self.pos_embedding = nn.Parameter(torch.randn(1, num_patches + 1, dim))
x += self.pos_embedding[:, :(n + 1)]

分类(cls token)

假如用第一个patch的embdding作为分类的特征这也是不公平的，所以另外concat了一个分类的token

self.cls_token = nn.Parameter(torch.randn(1, 1, dim))
cls_tokens = repeat(self.cls_token, '() n d -> b n d', b = b)
x = torch.cat((cls_tokens, x), dim=1)

总结

可以看到这里在视觉上用transformer的效果也不差，或许以后能够看到更多地在CV领域中使用Transformer的论文。但是经过笔者的测试，确实整个模型都会比用CNN要大，而且这么多的全连接也使得模型很容易过拟合，在CV领域可能还差一些更具有划时代里程碑式的像CNN一样即插即用的Attention模块。(虽然很多模型都被Attention洗过一遍了。)