《Pre-training Vision Transformers with Very Limited Synthesized Images》ICCV2023

最新推荐文章于 2024-09-10 16:00:52 发布

夏日的盒盒

最新推荐文章于 2024-09-10 16:00:52 发布

阅读量830

点赞数 9

文章标签： transformer 深度学习计算机视觉数据增强

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46981910/article/details/140986655

版权

摘要

本文提出了一种基于数学公式生成的合成图像的预训练方法，称为公式驱动的监督学习（FDSL）。该方法利用分形等数学公式生成合成图像，以预训练视觉变换器（ViT）。作者们假设在FDSL中为同一类别生成不同实例的过程可以视为一种数据增强形式。通过实验，他们发现使用单一实例的分形数据库（OFDB）替换原有数据集，可以取得更好的效果。此外，他们扩展了OFDB到21,000个类别，并展示了其在ImageNet-1k微调上的表现与在ImageNet-21k上预训练的模型相当或更优，而OFDB仅使用了21,000张图像，相比之下ImageNet-21k有14M张图像。

拟解决的问题

传统的大规模视觉模型预训练需要大量的数据和计算资源。此外，创建和标注大规模数据集的成本非常高。本文旨在探索使用极小的数据集进行有效的视觉变换器预训练。

创新之处

提出了一种新的预训练方法，即使用单一实例的分形数据库（OFDB）进行预训练。
证明了通过数据增强技术可以模拟原有FDSL数据集中的实例变化，从而减少所需的图像数量。
展示了即使使用极小的数据集，也能与大规模数据集预训练的模型相媲美或超越。

方法

3.1. 问题设置 (Problem Settings)

FDSL (Formula-Driven Supervised Learning): 描述了一种无需真实图像即可预训练神经网络的方法。通过数学公式（如分形）生成合成图像和标签。对于 FDSL，使用了交叉熵损失，由下式给出：

其中 $p_{i}=f_{\theta }\left ( x_{i} \right )$ 是可学习网络 $f_{\theta }$ 的输出向量，例如 ViT，θ 是一组参数，C 是类别的数量。通常，图像的数量 N 应该等于或超过 100 万个，以实现良好的预训练性能。

One-instance FDSL: 提出了一个高效的预训练框架，每个类别只使用一个代表性图像。这种方法显著提高了数据效率，因为它省略了传统FDSL中需要大量图像的步骤。在此设置中，交叉熵损失减少到以下负对数似然损失：

3.2. One-instance Fractal Databases (OFDBs)

分形是一种可以在所有尺度上重复自身形状的几何形状，它们在自然界中广泛存在，如植物、云彩和山脉等。分形具有自相似性，意味着它们在不同的尺度上展现出相似的结构。

2D-OFDB: 创建了一个包含2D分形图像的数据集。使用迭代函数系统（IFS）来生成分形图像，然后将其渲染成代表性图像。与传统的FractalDB相比，2D-OFDB在每个类别中只使用一个图像，而不是1000个。

首先，需要定义或随机采样一组迭代函数系统（IFS）。IFS是一组函数，通过迭代应用这些函数来生成分形图像：

其中X是2D欧几里得空间， $w_{j}:X\rightarrow \chi$ 是仿射变换函数， $p_{j}$ 是概率。

仿射变换：

其中， $M_{j}$ 是缩放矩阵， $T_{j}$ 是平移向量， $x$ 是空间中的点。

分形的生成步骤：

初始化：选择一个初始点 $v_{1}$ 。
迭代应用：通过以下公式重复应用变换以生成点集： $v_{t+1}=w^{*}\left ( v_{t} \right )$ 其中 $w^{*}$ 是根据概率p随机选择的变换。
生成分形：点集的极限集定义了分形的形状。

对于每个IFS，随机采样一个分形 $S_{c}$ 。这是通过应用IFS并根据概率分布选择变换来生成分形点集。将分形 $S_{c}$ 渲染成代表性图像 $x_{c}$ 。这个过程涉及将分形的数学表示转换成可视化的图像格式。

3D-OFDB: 类似于2D-OFDB，但使用3D空间和3D IFSs生成分形图像。这种方法考虑了3D空间中点的分散变化。

3.3. 数据增强方法 (Data Augmentation for Fractal Images)

由于在单实例FDSL中，原始图像的多样性是通过数据增强技术在训练期间创建的，作者提出了两种针对分形图像的数据增强方法：

随机模式增强 (Random Pattern Augmentation): 将分形图像中的每个点（在二值图像中表示为点）扩展为3×3的模式。这些模式是从所有可能的二进制3×3模式集合中随机选择的。

随机纹理增强 (Random Texture Augmentation): 将每个点扩展为3×3的灰度纹理，其中每个像素值是从0到255的均匀分布中随机采样的。

夏日的盒盒

关注

9
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。