摘要
本文提出了一种基于数学公式生成的合成图像的预训练方法,称为公式驱动的监督学习(FDSL)。该方法利用分形等数学公式生成合成图像,以预训练视觉变换器(ViT)。作者们假设在FDSL中为同一类别生成不同实例的过程可以视为一种数据增强形式。通过实验,他们发现使用单一实例的分形数据库(OFDB)替换原有数据集,可以取得更好的效果。此外,他们扩展了OFDB到21,000个类别,并展示了其在ImageNet-1k微调上的表现与在ImageNet-21k上预训练的模型相当或更优,而OFDB仅使用了21,000张图像,相比之下ImageNet-21k有14M张图像。
拟解决的问题
传统的大规模视觉模型预训练需要大量的数据和计算资源。此外,创建和标注大规模数据集的成本非常高。本文旨在探索使用极小的数据集进行有效的视觉变换器预训练。
创新之处
- 提出了一种新的预训练方法,即使用单一实例的分形数据库(OFDB)进行预训练。
- 证明了通过数据增强技术可以模拟原有FDSL数据集中的实例变化,从而减少所需的图像数量。
- 展示了即使使用极小的数据集,也能与大规模数据集预训练的模型相媲美或超越。
方法
3.1. 问题设置 (Problem Settings)
FDSL (Formula-Driven Supervised Learning): 描述了一种无需真实图像即可预训练神经网络的方法。通过数学公式(如分形)生成合成图像和标签。对于 FDSL,使用了交叉熵损失,由下式给出:
其中 是可学习网络 的输出向量,例如 ViT,θ 是一组参数,C 是类别的数量。通常,图像的数量 N 应该等于或超过 100 万个,以实现良好的预训练性能。
One-instance FDSL: 提出了一个高效的预训练框架,每个类别只使用一个代表性图像。这种方法显著提高了数据效率,因为它省略了传统FDSL中需要大量图像的步骤。在此设置中,交叉熵损失减少到以下负对数似然损失:
3.2. One-instance Fractal Databases (OFDBs)
分形是一种可以在所有尺度上重复自身形状的几何形状,它们在自然界中广泛存在,如植物、云彩和山脉等。分形具有自相似性,意味着它们在不同的尺度上展现出相似的结构。
2D-OFDB: 创建了一个包含2D分形图像的数据集。使用迭代函数系统(IFS)来生成分形图像,然后将其渲染成代表性图像。与传统的FractalDB相比,2D-OFDB在每个类别中只使用一个图像,而不是1000个。
首先,需要定义或随机采样一组迭代函数系统(IFS)。IFS是一组函数,通过迭代应用这些函数来生成分形图像:
其中X是2D欧几里得空间,是仿射变换函数,是概率。
仿射变换:
其中,是缩放矩阵,是平移向量,是空间中的点。
分形的生成步骤:
- 初始化:选择一个初始点。
- 迭代应用:通过以下公式重复应用变换以生成点集: 其中是根据概率p随机选择的变换。
- 生成分形:点集的极限集定义了分形的形状。
对于每个IFS,随机采样一个分形。这是通过应用IFS并根据概率分布选择变换来生成分形点集。将分形渲染成代表性图像。这个过程涉及将分形的数学表示转换成可视化的图像格式。
3D-OFDB: 类似于2D-OFDB,但使用3D空间和3D IFSs生成分形图像。这种方法考虑了3D空间中点的分散变化。
3.3. 数据增强方法 (Data Augmentation for Fractal Images)
由于在单实例FDSL中,原始图像的多样性是通过数据增强技术在训练期间创建的,作者提出了两种针对分形图像的数据增强方法:
随机模式增强 (Random Pattern Augmentation): 将分形图像中的每个点(在二值图像中表示为点)扩展为3×3的模式。这些模式是从所有可能的二进制3×3模式集合中随机选择的。
随机纹理增强 (Random Texture Augmentation): 将每个点扩展为3×3的灰度纹理,其中每个像素值是从0到255的均匀分布中随机采样的。