品论文:VISION TRANSFORMER (VIT)

今天上午看了个论文,每当遇到全英文论文的时候,就会发现自己的英文水平属实是太一般,但是看完这篇论文确实是感触良多!!!

  • 论文标题:《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》

  • 论文作者:Google Research, Brain Team

  • 论文发布时间:2020年11月22日

  • 论文摘要概述:
    在这里插入图片描述

  • 作者在摘要中表达的信心意思就是:transformer架构目前已经在自然语言处理任务中广泛应用且效果显著,但是在视觉领域目前应用不多。作者论文中所提出的《Vision Transformer (ViT)》在ImageNet, CIFAR-100, VTAB等数据集中取得了不错的成绩,对比表名transformer架构也可以在视觉领域取得优异成绩,且与先进的卷积网络相比,训练所需的计算资源大大减少。

1. 介绍部分

在这里插入图片描述
在这里插入图片描述

  • 核心就是介绍VIT模型在多个数据集上取得的成绩,例如在ImageNet上的正确率为88.55%,在ImageNet- real上为90.72%,在CIFAR-100上为94.55%,77.63%在19个任务的VTAB套件中。

code下载地址

Fine-tuning code and pre-trained models are available at https://github.com/google-research/vision_transformer

2. 相关工作部分

在这里插入图片描述

3. 模型架构

在这里插入图片描述

在VIT模型的设计中,尽量保持了transformer架构的原汁原味

VIT模型架构

在这里插入图片描述

  • 在接下来论文阐述的相关数据上,核心意思就是,将高分辨率的图像,分为N个patch图像块,然后Flatten拉伸成为1维向量,可以理解为reshape成类文本数据,例如将3x3的图像reshape成1x9形式,然后在进入embedding层之后进行patch embedding(个人理解此处类似于NLP中的token embedding操作),Position embedding主要是根据各个patch块在原始图像中的位置,对预训练的位置嵌入进行2D插值来记录对应的时序关系;之后数据被送入transformer Encoder结构和MLP head部分最终得到对应分类的概率分布;

4. 实验数据

在这里插入图片描述

在该实验数据中,作者试验了Layers层数包括12/24/32,hidden_size包括:768/1024/1280,多头注意力头数包括:12头和16头,参数量依次为:86M/307M/632M。
在实验结果上,均取得不俗表现;

5. 大数据集表现明显好于小数据集

在这里插入图片描述

  • 时间关系,今天就写到这吧,看完这篇VIT论文,感触良多,transformer既然也可以在视觉领域取得不俗成绩,未来多种模态之间的融合带来无限可能。
  • 个人断言:未来人工智能在多模态领域会有新的突破,敬请期待!!!
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值