动机
- 计算机视觉界正致力于用一种基于transformer的结构来取代事实上的标准卷积。最有洞察力的架构之一是Vision Transformer(ViT)。尽管ViT在图像输入方面是一个基础的Ctransformer架构,但该模型在几个数据集上的性能与最新的替代方法相当。然而,在表示学习中,ViT需要超过千万阶的标记图像。通过实验验证了在JFT-300M/ImageNet-21K上预训练ViT表现出了良好的精度。随着数据高效图像 Transformer(DeiT)的引入,利用大规模数据集学习的困难得到了缓解。然而,在图像分类中,预处理问题仍然存在。
- 即使在百万级数据集中,也存在着诸如AI ethics和版权问题,如公平保护、隐私侵犯、无礼标签等问题。由于这些敏感的问题,必须遵循大规模图像数据集中的使用条款,并相应地创建预训练的模型。
- 公式驱动的监督学习(FDSL)被提出来克服AI ethics和版权问题,以增加注释劳动。该框架类似于自监督学习。然而,FDSL方法不需要任何由相机拍摄的自然图像。该框架同时自动生成图像模式和用于预训练图像表示的成对标签。那么公式驱动的图像数据集是否能在训练前充分优化视觉transformer?
方法
提出了视觉transformer(ViT)的公式驱动监督学习(FDSL)框架。transformer的基本模型不变。FDSL中最成功的方法之一依赖于分形(FractalDB)。FractalDB由1k到10k对由迭代函数系统(IFS)生成的分形图像组成。选择分形几何来生成数据集的原因是该函数可以呈现复杂的模式和每个参数集的形状不同。
FractalDB。当由分形点的像素数除以图像的总像素数来计算填充率时,采用随机搜索的方法。类别内实例是通过三种方法生成的,这三种方法考虑了类别配置以保持类别中的形状:稍微