CVPR 2021 Can Vision Transformers Learn without Natural Images?

动机
  1. 计算机视觉界正致力于用一种基于transformer的结构来取代事实上的标准卷积。最有洞察力的架构之一是Vision Transformer(ViT)。尽管ViT在图像输入方面是一个基础的Ctransformer架构,但该模型在几个数据集上的性能与最新的替代方法相当。然而,在表示学习中,ViT需要超过千万阶的标记图像。通过实验验证了在JFT-300M/ImageNet-21K上预训练ViT表现出了良好的精度。随着数据高效图像 Transformer(DeiT)的引入,利用大规模数据集学习的困难得到了缓解。然而,在图像分类中,预处理问题仍然存在。
  2. 即使在百万级数据集中,也存在着诸如AI ethics和版权问题,如公平保护、隐私侵犯、无礼标签等问题。由于这些敏感的问题,必须遵循大规模图像数据集中的使用条款,并相应地创建预训练的模型。
  3. 公式驱动的监督学习(FDSL)被提出来克服AI ethics和版权问题,以增加注释劳动。该框架类似于自监督学习。然而,FDSL方法不需要任何由相机拍摄的自然图像。该框架同时自动生成图像模式和用于预训练图像表示的成对标签。那么公式驱动的图像数据集是否能在训练前充分优化视觉transformer?
方法

提出了视觉transformer(ViT)的公式驱动监督学习(FDSL)框架。transformer的基本模型不变。FDSL中最成功的方法之一依赖于分形(FractalDB)。FractalDB由1k到10k对由迭代函数系统(IFS)生成的分形图像组成。选择分形几何来生成数据集的原因是该函数可以呈现复杂的模式和每个参数集的形状不同。

FractalDB。当由分形点的像素数除以图像的总像素数来计算填充率时,采用随机搜索的方法。类别内实例是通过三种方法生成的,这三种方法考虑了类别配置以保持类别中的形状:稍微

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值