Abstract
在自然语言处理方面的模型,可以产生通用视觉特征(即无需微调即可跨图像分布和任务工作的特征)来极大地简化任何系统中图像的使用。这些模型能够提取出一些可以在不同类型的图像和任务中通用的视觉特征。这意味着不管图像的来源(例如,来自不同的相机或场景)或者任务的具体需求(例如,分类、检测等),这些提取的特征都能有效工作。这种通用性能够减少针对具体任务进行模型微调的需求,从而简化了图像在系统中的处理流程。
那么通用的视觉特征比如:边缘和纹理、颜色和亮度分布等等。
如何产生这样的通用视觉特征呢?
答:现有的预训练方法,尤其是自监督方法,如果使用来自不同来源的足够的精选数据进行训练,可以产生此类特征。在数据方面,我们提出了一个自动管道(automatic pipeline)来构建专用的、多样化的和精选的图像数据集。
1.Introduction
- 无任务特定的预训练表示:模型并不是针对某一个特定的任务(例如情感分析或翻译),而是通过大量的文本数据学习语言的基本结构和语义。这种预训练使得模型能够掌握通用的语言特征,随后可以在多种下游任务中直接使用,而不需要再进行针对特定任务的训练,从而提高效率和性能。
- 无需微调的使用:这些预训练的特征可以“直接使用”,即在许多下游任务中,不需要针对特定任务进行微调。这意味着,研究者和开发者可以直接使用这些模型,而不必耗费时间和资源进行额外的训练。这些预训练模型甚至优于那些特定任务模型的性能。
- 成功的原因:①大量原始文本的预训练(数据层面):使用了非常大的文本数据集,而这些文本数据通常是没有标注的,让模型通过处理大量文本来学习语言的结构、词语的语义以及它们的相互关系②无需监督的预训练目标(任务层面):语言模型(Language Modeling)和词向量
- text-guided pretraining:模型通过图像和对应的文本描述(如图像的标题或注释)一起进行训练,文本为模型提供监督信号,帮助模型更好地理解和处理图像。
- 自监督学习代替text-guided pretraining:从图像本身(而不是文本描述)中学习特征。
3.Data Processing
数据集包括一些公开数据集,还有一些爬虫数据集经过处理(去重等)合并得到的,LVD-142M,有1.42亿张图片
筛选的几个目的:
①增强数据集规模:
- 人工筛选数据虽然质量高,但数量有限。而未筛选的数据通常规模非常庞大,尽管质量参差不齐。通过这个管道,可以从未筛选数据中提取更多有用的图像,从而扩大数据集的规模。
②保持数据多样性:
- 人工筛选数据的来源和内容可能有局限性,而未筛选数据可能包含更多种类的图像。通过管道的去重和匹配机制,可以从未筛选数据中获取与已筛选数据相似但又不重复的新图像,这样不仅可以扩大数据集,还可以增加图像的多样性,提升模型对不同场景的泛化能力。
③提高自监督学习效果:
- 自监督学习模型依赖大量未标注的数据来训练,如果仅依赖小规模的人工筛选数据,模型可能无法学到丰富的特征。通过这个管道从未筛选数据中筛选出有价值的部分,可以进一步增强模型的训练效果,尤其是在处理各种下游任务时。
④减少噪声,保证质量:
- 未筛选数据虽然数量庞大,但往往包含大量噪声(如重复、不相关或低质量图像)。通过管道的去重和检索步骤,可以过滤掉不相关或低质量的数据,确保未筛选数据中的有用信息能够补充到精心筛选的数据集中,而不会引入噪声。
处理的步骤:
去重的目的:
确保数据集的