an image is worth 16*16 words: transformers for image recognition at scale

an image is worth 16*16 words: transformers for image recognition at scale
变压器 for 大规模图像识别。变压器用于自然语言处理,计算机视觉,变压器,图像分类,图像补丁序列时。自注意力,变压器的计算效率和可扩展性。在大规模的图像识别中ResNet50仍是最新的技术,由于自注意力加卷积的速度和可扩展性差。with the fewest possible modifications用最少的修改。 we split an image into patches and provide the sequence of linear embeddings of these patches as an input to a Transformer.Such models yield modest results这样的模型产生恰当的结果。归纳偏差,等方差和局部性,数据量不足的情况下。Transformers attain excellent results when pre-trained at sufficient scale and transferred to tasks with fewer datapoints.变压器 机器翻译 不了解变压器的先前应用 with 对整个图像的自注意力。iGPT将变压器应用于图像像素 after 减少图像分辨率 和颜色空间。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
ResNet的中间特征图 被早期阶段所取代 一个通道的特征图被展开成一个序列 维度 变压器 分类输入嵌入和位置嵌入。
在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值