推荐12篇预训练相关高分论文（附下载）

本文链接：https://blog.csdn.net/weixin_42645636/article/details/130952362

要问现在的论文圈“当红炸子鸡”是哪个？预训练模型肯定能上提名，作为科研热门方向，必然是不可忽略的。

所以今天一整理完就赶紧来和大家分享了，目前有十几篇预训练相关的高引论文，建议必读。后续有空的话会继续更新（点个赞收藏下吧），原文链接已附上，同学们自行保存！

懒得一个个下载或者还需要代码的同学直接看文末领取合集！

1.BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BLIP：引导性语言图像预训练用于统一的视觉语言理解和生成

438引用 ICML 2022

链接：https://arxiv.org/pdf/2201.12086.pdf

摘要：视觉语言预训练(VLP)提高了许多视觉语言任务的性能。然而，大多数现有的预训练模型仅在理解型任务或生成型任务中表现优异。此外，性能的提高在很大程度上是通过利用从Web上收集的噪声图像文本对扩大数据集来实现的，这是一种不理想的监督来源。在本文中，我们提出了BLIP，一种新的VLP框架，可以灵活地转移到视觉语言理解和生成任务。BLIP通过引导性描述有效利用噪声Web数据，其中描述生成器生成合成描述，过滤器删除噪声描述。我们在各种视觉语言任务上取得了最先进的结果，例如图像文本检索(平均召回率提高2.7%)、图像描述(+2.8% CIDEr)和VQA(+1.6% VQA评分)。BLIP在直接以零次学习的方式转移到视频语言任务时也展示出很强的泛化能力。

总的来说,BLIP是一个新的视觉语言预训练框架，它利用Web数据训练，可以同时用于视觉语言理解任务和生成任务，并取得SOTA的结果。该方法还在视频语言理解迁移学习中表现出较强的泛化能力。

2.FILIP: Fine-grained Interactive Language-Image Pre-Training

FILIP：细粒度交互语言图像预训练

195引用 ICLR 2021

链接：https://arxiv.org/pdf/2111.07783.pdf

摘要：非监督大规模视觉语言预训练在各种下游任务中显示出很有前景的进步。现有的方法通常通过每个模态的全局特征的相似性来建模跨模态互动，这遗漏了足够的信息，或者使用视觉和文本标记的互相注意力或自注意力进行更细粒度的互动。然而，互相注意力或自我注意力在训练和推理效率方面较低。在本文中，我们提出了大规模细粒度交互语言图像预训练(FILIP)，通过跨模态后期互动机制实现更细粒度的对齐，该机制使用视觉和文本标记之间的最大相似性词级别来指导对比损失。FILIP仅通过修改对比损失就成功利用了图像块和文本词之间的更细粒度表达能力，同时在推理时获得将图像和文本表示预先计算的能力，保持大规模训练和推理的效率。此外，我们构建了一个新的大规模图像文本对数据集，称为FILIP300M,用于预训练。实验表明，FILIP在多个下游视觉语言任务（包括零次图像分类和图像文本检索）中达到最先进的性能。词块对齐的可视化进一步显示，FILIP可以学习有意义的细粒度特征，具有很有前景的定位能力。

总之，FILIP方法通过跨模态后期互动和对比损失，实现了视觉和语言之间的细粒度对齐，并在大规模数据集上进行预训练，在多个视觉语言下游任务中取得最佳结果，证明了其良好的表达能力和泛化性。

3.Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm

无处不在的监督：一种数据高效的对比语言图像预训练范式

162引用 ICLR 2021

链接：https://arxiv.org/pdf/2110.05208.pdf

摘要：最近，大规模对比语言图像预训练(CLIP)因其令人印象深刻的零次识别能力和对下游任务的优秀转移能力而引起前所未有的关注。然而，CLIP的数据量要求很大，需要4亿个图像文本对进行预训练，从而限制了其采用。本工作提出了一种新的训练范式，称为数据高效CLIP(DeCLIP)，以缓解这一限制。我们证明，通过精心利用图像文本对之间广泛存在的监督，我们的DeCLIP可以更高效地学习通用的视觉特征。我们不仅使用图像文本对比监督，而且通过利用(1)每个模态内的自我监督；(2)跨模态的多视角监督；(3)来自其他相似对的最近邻监督来充分利用数据潜力。受内在监督的好处，我们的DeCLIP-ResNet50可以在ImageNet上达到60.4%的零次top1准确率，比CLIP-ResNet50高0.8%，而数据量少7.1倍。我们的DeCLIP-ResNet50在转移到下游任务时，在11个视觉数据集中的8个数据集上超过其对应物。此外，放大模型和计算在我们的框架中也运行良好。我们发布了代码，数据集和模型。

总之，该方法提出了一种数据高效的对比语言图像预训练范式DeCLIP，它通过利用图像文本对内在的各种监督形式,实现了与CLIP相当的效果，但数据量大幅减少。DeCLIP在下游任务中也表现优异，证明其具有较强的表示能力和迁移能力。

4.BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

BLIP-2：使用冻结的图像编码器和大型语言模型引导语言图像预训练

141引用 http://arXiv.org 2023

链接：https://arxiv.org/pdf/2301.12597.pdf

摘要：由于大规模模型的端到端训练,视觉与语言预训练的成本变得越来越高。本文提出了BLIP-2，这是一种通用且高效的预训练策略，它使用现成的冻结预训练图像编码器和冻结的大型语言模型引导视觉语言预训练。BLIP-2使用轻量级的查询变换器跨模态，该变换器分两阶段预训练。第一阶段从冻结的图像编码器引导视觉语言表示学习。第二阶段从冻结的语言模型引导视觉到语言的生成学习。尽管BLIP-2的参数可训练数量显著少于现有方法，但它在各种视觉语言任务上实现了最先进的性能。例如，与Flamingo80B相比，我们的模型在零次VQAv2上提高了8.7%，参数可训练数量减少了54倍。我们还证明了该模型零次图像到文本生成的新兴能力，可以遵循自然语言说明。

总之，该方法通过结合现有的图像编码器和语言模型，构建一个轻量级的查询变换器，实现了高效且高性能的视觉语言预训练。模型以较少的参数，在多个视觉语言任务特别是Zero-shot任务中达到或超过当前最佳水平，表明其良好的跨模态表示学习和迁移能力。

5.w2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training

w2v-BERT：将对比学习和遮蔽语言建模相结合进行自监督语音预训练

125引用 IEEE 2021

链接：https://arxiv.org/pdf/2108.06209.pdf

摘要：受遮蔽语言建模(MLM)在预训练自然语言处理模型中的成功的启发，我们提出了w2v-BERT，它探索了MLM用于自监督语音表示学习。w2v-BERT是一个将对比学习和MLM相结合的框架，前者训练模型将输入的连续语音信号离散化为有限的鉴别语音标记集，后者通过解决遮蔽预测任务来消耗离散标记，从而训练模型学习上下文语音表示。与现有基于MLM的语音预训练框架（如依赖迭代重新聚类和重新训练过程的HuBERT，或连接两个单独训练的模块的vq-wav2vec）相比，w2v-BERT可以通过同时解决两个自监督任务（对比任务和MLM）以端到端的方式进行优化。我们的实验表明，当使用Libri-Light 60k语料库作为无监督数据时，w2v-BERT在LibriSpeech基准测试上达到与当前最先进的预训练模型相当的结果。特别是与已发表的模型（如基于卷积的wav2vec 2.0和HuBERT）相比，我们的模型在test-clean和test-other子集上显示了5%到10%的相对WER减少。当应用于谷歌的语音搜索流量数据集时，w2v-BERT相对于我们内部的基于卷积的wav2vec 2.0提高了30%以上。

总之，该方法通过结合对比学习和遮蔽语言建模，提出了一种端到端的语音预训练方法w2v-BERT。实验表明，该方法在语音识别任务上与当前最佳方法相当或超过，特别在较小的数据集上具有更好的泛化性。该预训练模型为语音识别和理解任务提供了一个有效的基础。

6.PANDA: Adapting Pretrained Features for Anomaly Detection and Segmentation

PANDA：对预训练特征进行调整用于异常检测和分割

97引用 CVPR 2020

链接：https://arxiv.org/pdf/2010.05903.pdf

摘要：异常检测方法需要高质量的特征。近年来，异常检测社区试图利用深度自监督特征学习的进步获得更好的特征。令人惊讶的是，使用预训练的深度特征这一非常有希望的方向，大多被忽视。在本文中，我们首先通过经验确立了可能预期的但未报告的结果，即将预训练特征与简单的异常检测和分割方法结合，明显优于更复杂的最先进方法。为了进一步提高异常检测的性能，我们调整预训练特征以适应目标分布。虽然迁移学习方法在多类分类问题中得到了很好的建立，但单类分类设置尚未充分探索。事实证明，通常在监督学习中运行良好的简单调整方法，在单类分类设置中经常导致灾难性崩溃（特征恶化）和性能下降。流行的单类分类方法DeepSVDD提倡使用专门的体系结构，但这会限制调整性能的提高。我们提出了两种方法来防止崩溃：i)动态学习停止迭代的提前停止变体；ii)受持续学习启发的弹性正则化。我们的方法PANDA在单类分类，异常暴露和异常分割设置中大幅超过最先进技术。

总之，该方法首先验证了将预训练特征与简单的异常检测方法相结合可以大大提高性能。然后，为了进一步改进，提出了两种方法来调整预训练特征以针对目标分布，并避免在单类分类任务中常见的“特征崩溃”问题。实验结果显示，该方法在多个异常检测相关任务中超过当前最佳水平，证明其强大的表示学习和泛化能力。

7.Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

多粒度视觉语言预训练：对齐文本与视觉概念

90引用 ICML 2021

链接：https://arxiv.org/pdf/2111.08276.pdf

摘要：大多数现有的视觉语言预训练方法依赖于通过对象检测提取的以对象为中心的特征，并在提取的特征和文本之间进行细粒度对齐。这些方法难以学习多个对象之间的关系。为此，我们提出了一种新的方法X-VLM来执行“多粒度视觉语言预训练”。学习多粒度对齐的关键是根据相关文本定位图像中的视觉概念，同时对齐文本与视觉概念，其中对齐以多粒度形式出现。实验结果表明，X-VLM有效利用学习到的多粒度对齐来完成许多下游视觉语言任务，并始终优于最先进的方法。

总之，该方法提出了一种多粒度视觉语言预训练方法X-VLM。不同于现有方法主要依赖对象级特征，该方法可以学习图像中的视觉概念与文本的多粒度对齐。实验表明，该方法在多个视觉语言下游任务中优于最先进方法，证明其强大的多粒度表示学习和迁移能力。该预训练模型为视觉语言理解任务提供了一个更丰富的基础。

8.LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3：使用统一的文本和图像Masking进行文档AI预训练

75引用 ACM 2022

链接：https://arxiv.org/pdf/2204.08387.pdf

摘要：自监督预训练技术在文档AI中取得了显著进步。大多数跨模态预训练模型使用遮蔽语言建模目标来学习文本模态的双向表示，但图像模态的预训练目标不同。这种差异增加了跨模态表示学习的难度。在本文中，我们提出了LayoutLMv3，以统一的文本和图像遮蔽来预训练文档AI的跨模态变换器。此外，LayoutLMv3使用词块对齐目标进行预训练，通过预测文本词对应的图像块是否被遮蔽来学习跨模态对齐。简单的统一架构和训练目标使LayoutLMv3成为文本中心和图像中心文档AI任务的通用预训练模型。实验结果表明，LayoutLMv3不仅在文本中心任务（包括表格理解、收据理解和文档视觉问答）中达到最先进的性能,而且在图像中心任务（如文档图像分类和文档布局分析）中也是如此。

总之，该方法提出了一种统一的预训练模型LayoutLMv3，以统一的文本和图像Masking以及词块对齐目标进行预训练，实现了高效的跨模态表示学习。实验表明，该模型在文档AI的文本中心任务和图像中心任务中都达到最先进水平，证明其强大的表示学习和迁移能力。该预训练模型为各种文档AI任务提供了一个统一且高效的基础。

9.VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning

VIMPAC：通过遮蔽标记预测和对比学习进行视频预训练

42引用 http://arXiv.org 2021

链接：https://arxiv.org/pdf/2106.11250.pdf

摘要：视频理解依赖于感知全局内容和建模其内部连接（如因果关系、运动和时空对应）。为了学习这些互动，我们在通过VQ-VAE生成的离散视频标记上应用遮蔽然后预测的预训练任务。与语言不同，文本标记更加独立，相邻的视频标记通常有很强的相关性（例如，连续的视频帧通常看起来非常相似），因此均匀遮蔽单个标记将使任务过于轻 trivial 以学习有用的表示。为了解决这个问题，我们提出了一种区块遮蔽策略，我们在空间和时间域中遮蔽相邻的视频标记。我们还增加了一种无数据增强的对比学习方法，通过预测视频剪辑是否采自同一视频来进一步捕捉全局内容。我们在未加工的视频上预训练我们的模型，并表明我们的预训练模型可以在几个视频理解数据集上达到最先进的结果（例如SSV2,Diving48）。最后，我们详细分析了模型的可扩展性和预训练方法的设计。

总之，该方法提出了一种视频预训练方法VIMPAC，它采用区块遮蔽和对比学习策略，并在大规模未标记视频上进行预训练。实验表明，该预训练模型在多个视频理解任务上达到或超过当前最佳水平，证明其强大的视频表示学习和迁移能力。研究还分析了模型和方法的可扩展性。该预训练模型为视频理解任务提供了一个有效的基础。

10.Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP)

数据决定对比语言图像预训练(CLIP)中的分布健壮性

31引用 ICML 2022

链接：https://arxiv.org/pdf/2205.01397.pdf

摘要：对比语言图像模型如CLIP、ALIGN和BASIC在许多具有挑战性的自然分布转移中展示了前所未有的鲁棒性。由于这些语言图像模型在几个方面与以前的训练方法不同，一个重要的问题是什么导致了这么大的鲁棒性提高。我们通过系统的实验调查来解答这个问题。具体地，我们研究了鲁棒性提高的五个不同可能原因：(i)训练集的大小，(ii)训练分布，(iii)训练时的语言监督，(iv)测试时的语言监督，和(v)对比损失函数。我们的实验表明，更多样化的训练分布是鲁棒性提高的主要原因，其他因素几乎不贡献鲁棒性。除实验结果外，我们还引入了ImageNet-Captions，这是ImageNet的一个版本，具有来自Flickr的原始文本注释，以启用进一步控制的语言图像训练实验。

总之，研究系统地分析了对比语言图像预训练模型的分布健壮性提高的原因，实验表明训练数据的多样性是主要原因，其他因素贡献很小。研究还构建了一个带原始图像注释的ImageNet数据集，便于进一步控制实验。

11.Multi-Modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training

通过视觉语言预训练实现医学图像和文本的多模态理解和生成

31引用 IEEE 2021

链接：https://arxiv.org/pdf/2105.11333.pdf

摘要：最近几项研究通过扩展BERT体系结构并采用多模态预训练目标，在图像字幕和视觉问答等多样化的视觉语言多模态任务上取得了令人印象深刻的性能。在本工作中，我们探索医学领域广泛的多模态表示学习任务，特别是使用放射学图像和非结构化报告。我们提出了Medical Vision Language Learner(MedViLL)，它采用BERT为基础的体系结构，结合新的多模态注意遮蔽方案，以最大限度地提高视觉语言理解任务（诊断分类、医学图像报告检索、医学视觉问答）和视觉语言生成任务(放射学报告生成)的泛化性能。通过对三个放射图像报告数据集(MIMIC-CXR、Open-I和VQA-RAD)的四个下游任务进行统计严格评估，我们通过经验证明MedViLL相对于各种基准(包括特定任务的体系结构)在下游任务性能上的优越性。

总之，该方法采用BERT为基础，通过多模态注意遮蔽方案，实现了医学领域的视觉语言表示学习。实验结果表明，该方法在医学图像的多模态理解和生成任务上优于现有方法。该预训练模型为医学图像分析和计算机辅助诊断提供了一个有力的基础。

12.Scaling Language-Image Pre-training via Masking

通过遮蔽扩展语言图像预训练

29引用 http://arXiv.org 2022

链接：https://arxiv.org/pdf/2212.00794.pdf

摘要：我们提出了快速语言图像预训练(FLIP),这是训练CLIP的一种简单且更有效的方法。我们的方法在训练期间随机遮蔽和删除了大量的图像块。遮蔽允许我们在给定相同的墙上时钟时间内学习更多的图像文本对，并在每次迭代中对比更多的样本，具有类似的内存占用。它导致了精度和训练时间之间的有利权衡。在我们对4亿图像文本对的实验中，FLIP相比于无遮蔽基线提高了精度和速度。在大多数下游任务上，FLIP显著优于在同一数据上训练的CLIP对应物。受速度提高的促进，我们探讨了增加模型大小、数据大小或训练长度的缩放行为，并报告了令人鼓舞的结果和比较。我们希望我们的工作会促进未来对视觉语言学习的缩放的研究。

总之，该方法通过随机图像patch遮蔽，提出了一种更快和更高效的语言图像预训练方法FLIP。实验表明，该方法相比标准方法在同样数据和计算资源下，提高了预训练模型的精度和速度。该工作探讨了模型和数据量放大对FLIP的影响，为大规模视觉语言表示学习提供了启示。该预训练模型为视觉语言理解任务提供了一个既高效又高精度的基础。

关注下方【学姐带你玩AI】🚀🚀🚀

回复“预训练”领取论文原文+代码合集

码字不易，欢迎大家点赞评论收藏！