CVPR 2021 Can Vision Transformers Learn without Natural Images?

最新推荐文章于 2022-01-24 23:16:51 发布

smile909

最新推荐文章于 2022-01-24 23:16:51 发布

阅读量381

点赞数

分类专栏： CVPR 2021

本文链接：https://blog.csdn.net/smile909/article/details/115314733

版权

本文探讨了在不使用自然图像的情况下，如何通过公式驱动的监督学习（FDSL）预训练视觉Transformer（ViT）。研究发现，使用FractalDB数据集进行预训练的ViT在某些指标上表现与有监督学习和自监督学习方法相当，甚至略胜一筹，从而验证了FDSL在表示学习中的潜力。

摘要由CSDN通过智能技术生成

动机

计算机视觉界正致力于用一种基于transformer的结构来取代事实上的标准卷积。最有洞察力的架构之一是Vision Transformer(ViT)。尽管ViT在图像输入方面是一个基础的Ctransformer架构，但该模型在几个数据集上的性能与最新的替代方法相当。然而，在表示学习中，ViT需要超过千万阶的标记图像。通过实验验证了在JFT-300M/ImageNet-21K上预训练ViT表现出了良好的精度。随着数据高效图像 Transformer(DeiT)的引入，利用大规模数据集学习的困难得到了缓解。然而，在图像分类中，预处理问题仍然存在。
即使在百万级数据集中，也存在着诸如AI ethics和版权问题，如公平保护、隐私侵犯、无礼标签等问题。由于这些敏感的问题，必须遵循大规模图像数据集中的使用条款，并相应地创建预训练的模型。
公式驱动的监督学习(FDSL)被提出来克服AI ethics和版权问题，以增加注释劳动。该框架类似于自监督学习。然而，FDSL方法不需要任何由相机拍摄的自然图像。该框架同时自动生成图像模式和用于预训练图像表示的成对标签。那么公式驱动的图像数据集是否能在训练前充分优化视觉transformer？

方法

提出了视觉transformer(ViT)的公式驱动监督学习(FDSL)框架。transformer的基本模型不变。FDSL中最成功的方法之一依赖于分形（FractalDB）。FractalDB由1k到10k对由迭代函数系统(IFS)生成的分形图像组成。选择分形几何来生成数据集的原因是该函数可以呈现复杂的模式和每个参数集的形状不同。

FractalDB。当由分形点的像素数除以图像的总像素数来计算填充率时，采用随机搜索的方法。类别内实例是通过三种方法生成的，这三种方法考虑了类别配置以保持类别中的形状：稍微

最低0.47元/天解锁文章

smile909

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2021 Can Vision Transformers Learn without Natural Images?

动机计算机视觉界正致力于用一种基于transformer的结构来取代事实上的标准卷积。最有洞察力的架构之一是Vision Transformer(ViT)。尽管ViT在图像输入方面是一个基础的Ctransformer架构，但该模型在几个数据集上的性能与最新的替代方法相当。然而，在表示学习中，ViT需要超过千万阶的标记图像。通过实验验证了在JFT-300M/ImageNet-21K上预训练ViT表现出了良好的精度。随着数据高效图像 Transformer(DeiT)的引入，利用大规模数据集学习的困难得到了
复制链接

扫一扫

专栏目录