《Pre-training Vision Transformers with Very Limited Synthesized Images》ICCV2023

摘要

本文提出了一种基于数学公式生成的合成图像的预训练方法,称为公式驱动的监督学习(FDSL)。该方法利用分形等数学公式生成合成图像,以预训练视觉变换器(ViT)。作者们假设在FDSL中为同一类别生成不同实例的过程可以视为一种数据增强形式。通过实验,他们发现使用单一实例的分形数据库(OFDB)替换原有数据集,可以取得更好的效果。此外,他们扩展了OFDB到21,000个类别,并展示了其在ImageNet-1k微调上的表现与在ImageNet-21k上预训练的模型相当或更优,而OFDB仅使用了21,000张图像,相比之下ImageNet-21k有14M张图像。

拟解决的问题

传统的大规模视觉模型预训练需要大量的数据和计算资源。此外,创建和标注大规模数据集的成本非常高。本文旨在探索使用极小的数据集进行有效的视觉变换器预训练。

创新之处

  • 提出了一种新的预训练方法,即使用单一实例的分形数据库(OFDB)进行预训练。
  • 证明了通过数据增强技术可以模拟原有FDSL数据集中的实例变化,从而减少所需的图像数量。
  • 展示了即使使用极小的数据集,也能与大规模数据集预训练的模型相媲美或超越。

方法

3.1. 问题设置 (Problem Settings)

FDSL (Formula-Driven Supervised Learning): 描述了一种无需真实图像即可预训练神经网络的方法。通过数学公式(如分形)生成合成图像和标签。对于 FDSL,使用了交叉熵损失,由下式给出:

其中 p_{i}=f_{\theta }\left ( x_{i} \right ) 是可学习网络 f_{\theta } 的输出向量,例如 ViT,θ 是一组参数,C 是类别的数量。通常,图像的数量 N 应该等于或超过 100 万个,以实现良好的预训练性能。 

One-instance FDSL: 提出了一个高效的预训练框架,每个类别只使用一个代表性图像。这种方法显著提高了数据效率,因为它省略了传统FDSL中需要大量图像的步骤。在此设置中,交叉熵损失减少到以下负对数似然损失:

3.2. One-instance Fractal Databases (OFDBs)

分形是一种可以在所有尺度上重复自身形状的几何形状,它们在自然界中广泛存在,如植物、云彩和山脉等。分形具有自相似性,意味着它们在不同的尺度上展现出相似的结构。

2D-OFDB: 创建了一个包含2D分形图像的数据集。使用迭代函数系统(IFS)来生成分形图像,然后将其渲染成代表性图像。与传统的FractalDB相比,2D-OFDB在每个类别中只使用一个图像,而不是1000个。

首先,需要定义或随机采样一组迭代函数系统(IFS)。IFS是一组函数,通过迭代应用这些函数来生成分形图像:

其中X是2D欧几里得空间,w_{j}:X\rightarrow \chi是仿射变换函数,p_{j}是概率。 

仿射变换: 

 其中,M_{j}​是缩放矩阵,T_{j}是平移向量,x是空间中的点。

分形的生成步骤:

  1. 初始化:选择一个初始点v_{1}
  2. 迭代应用:通过以下公式重复应用变换以生成点集:v_{t+1}=w^{*}\left ( v_{t} \right ) 其中w^{*}是根据概率p随机选择的变换。
  3. 生成分形:点集的极限集定义了分形的形状。

对于每个IFS,随机采样一个分形S_{c}​。这是通过应用IFS并根据概率分布选择变换来生成分形点集。将分形S_{c}渲染成代表性图像x_{c}​。这个过程涉及将分形的数学表示转换成可视化的图像格式。

3D-OFDB: 类似于2D-OFDB,但使用3D空间和3D IFSs生成分形图像。这种方法考虑了3D空间中点的分散变化。

3.3. 数据增强方法 (Data Augmentation for Fractal Images)

由于在单实例FDSL中,原始图像的多样性是通过数据增强技术在训练期间创建的,作者提出了两种针对分形图像的数据增强方法:

随机模式增强 (Random Pattern Augmentation): 将分形图像中的每个点(在二值图像中表示为点)扩展为3×3的模式。这些模式是从所有可能的二进制3×3模式集合中随机选择的。

随机纹理增强 (Random Texture Augmentation): 将每个点扩展为3×3的灰度纹理,其中每个像素值是从0到255的均匀分布中随机采样的。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值