Vision-Transformer详解

引言(Transformer)

在这里插入图片描述

  • transformer一开始提出为上面这篇论文,主要应用在NLP领域。
  • 在此之前,nlp主要使用RNN(记忆的长度是有限的,比较短,所以有了后面的LSTM),LSTM等时序网络, 且无法并行化训练(即必须先计算出t0时刻的数据,再计算t1时刻的数据),导致训练效率低。
  • 所以提出transformer,如果在硬件不受限制的情况下,他的记忆长度是无限的。而且可以做并行化。

核心模块:self-attention

在这里插入图片描述

  • 计算q,k,v在这里插入图片描述
  • 对(q*k) / np.sqrt(d)得到的a进行softmax在这里插入图片描述在这里插入图片描述
  • 用上面得到的a乘以v,如右下角的矩阵乘法所示:在这里插入图片描述
  • 多个head情况下(相当于cnn中的group卷积):
    在这里插入图片描述在这里插入图片描述在这里插入图片描述
  • 对concat后的矩阵进行融合在这里插入图片描述
  • 位置编码的必要性(因为如果把后面的顺序打乱,不会影响前面的输出,不合理,应该全局编码,每个位置变动都会影响到其他任意位置):在这里插入图片描述
    在这里插入图片描述

Vision-Transformer

在这里插入图片描述
在这里插入图片描述

  • 增加一个class的token是参考的BERT网络
    在这里插入图片描述
    位置编码带来的提升:
    在这里插入图片描述
    用每个位置的编码与其他位置的编码求余弦相似度如图:
    在这里插入图片描述
  • Transformer Encoder
    在这里插入图片描述
    LayerNormal可参考:https://zhuanlan.zhihu.com/p/54530247
  • 一个encoder block包括一个multi-head和MLP
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

参考:
bilibli霹雳吧啦Wz

### 回答1: Vision Transformer(视觉Transformer)是一种基于Transformer架构的深度学习模型,主要用于图像分类和目标检测任务。与传统卷积神经网络不同,Vision Transformer使用了全局自注意力机制,使得模型可以更好地捕捉到不同位置之间的关系。Vision Transformer已经在ImageNet等大规模数据集上取得了优秀的性能表现,并逐渐成为深度学习领域的研究热点。 ### 回答2: Vision Transformer(ViT)是一种全新的视觉识别模型,由谷歌提出,它借鉴了自然语言处理领域中的transformer技术。ViT在图像分类、目标检测和分割等视觉任务中均有较好的效果,并且在一些任务中超越了传统的卷积神经网络(CNN)模型。 ViT模型的核心是transformer encodertransformer decoder两大部分。transformer encoder负责将输入序列转换成特征向量,而transformer decoder则是根据特征向量生成目标输出序列。在ViT模型中,将一张图片视为一个大小为H×W的序列,然后再通过一些处理,将会得到一个大小为N的特征向量,其中每个元素代表了原图中的一个位置坐标。 ViT模型通过将一张图像划分成大小为P × P的图块,然后将每个图块拼接成一个序列,来处理整个图像。基于这样的序列表示方式,ViT将应用transformer架构对序列进行处理,以生成特征表示。同时,由于传统的transformer是为自然语言处理领域设计的,所以需要对其进行一定的调整,才能适用于图像处理任务。因此,ViT引入了一个叫做“patch embedding”的操作,它将每个P × P的图块映射成一个特征向量,然后再进行transformer处理。 除此之外,在ViT模型中还使用了一些其他的技术来提升模型的性能,包括:1)将transformer encoder中的自注意力替换为多头注意力,以增加模型的并行性和泛化性;2)在每个transformer block中应用残差连接和归一化,以加速训练、提高稳定性和精度;3)引入了一个分类头,用于将特征向量转换为最终的输出类别概率。这些技术的应用均使得ViT模型在视觉识别任务上表现出了很好的效果。 总之,ViT模型是一种基于transformer架构的新型视觉识别模型,它采用多头注意力、残差连接等技术,将图像视为序列,利用transformer encodertransformer decoder对序列进行处理,并最终输出目标类别概率。相比于传统的CNN模型,在一些任务中ViT具有更优秀的表现,有望成为未来视觉处理领域的新趋势。 ### 回答3: Vision Transformer(ViT)是谷歌的一款新型视觉模型,与传统的卷积神经网络(CNN)不同,ViT是由注意力机制(Attention Mechanism)组成的纯粹Transformer模型Transformer源于自然语言处理领域,它能解决文本序列问题,但对于图像数据来说,采用Transformer是一个全新的尝试。 ViT将图像分割成固定数量的块(例如16*16),每个块被视为一个向量。这些向量然后传递给Transformer编码器,其中包括多层自注意力机制。通过学习这些向量之间的相互作用,模型能够提取出各个块之间的关键信息。最后,全连接层通过分类器将最终向量映射到相应的类别。 相较于传统CNN,ViT的明显优势是无需人工设计的特征提取器,这使得模型更具通用性,适用于各种视觉任务,并且能够处理多种分辨率和大小的图像。同时,attention机制带来的优点也让ViT在处理长时间序列信息时表现突出。 然而ViT在使用时还存在一些挑战。由于图像信息需要被分割成固定大小的块,因此对于具有细长结构的对象(如马路、河流等),模型很容易将它们拆分为多个块,导致信息的丢失。此外,由于向量长度的限制,ViT的处理能力存在局限性。 在处理大规模数据时,ViT还需要面对计算资源的挑战。为解决这一问题,研究人员提出了一系列改进算法,如DeiT、T2T-ViT、Swin Transformer等,它们能够更好地处理大规模图像数据。 总的来说,Vision Transformer模型是一种全新的尝试,它使用自注意力机制构建纯Transformer模型来处理图像数据。虽然存在一些性能挑战,但随着技术的不断进步和改进算法的诞生,ViT模型必将成为图像处理领域的重要一员。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Shashank497

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值