大模型时代下，算力不够，如何做科研?_资源受限的大模型研究-CSDN博客

本文链接：https://blog.csdn.net/2401_85373691/article/details/145986363

引言

Facebook Meta AI开源了语言大模型LLaMA（Large Language Model Meta AI）。该模型参数量最大可达650亿，性能表现出色。Meta AI此举旨在使大模型更加亲民，让更多研究者能够获取并应用这些模型参数到各自的研究领域中。

LLaMA系列共包含四个不同规模的模型，参数量分别为7B、13B、33B和65B。尽管Meta AI将这些模型称为“较小模型”（smaller models），但与GPT-3（1750亿参数）或Google的PaLM（5400亿参数）相比，650亿参数确实显得小了一个数量级。然而，从实际应用角度来看，650亿参数的模型已经远超大多数常用模型的规模。对于大多数研究者而言，训练和部署超过10亿参数的模型已经是巨大的挑战。因此，尽管LLaMA在绝对参数量上不如一些顶级大模型，但它依然为许多研究者提供了前所未有的计算资源和研究机会。

自然语言处理（NLP）领域，大模型已经成为主流，模型规模不断增大。计算机视觉（CV）领域也不甘落后，Google推出了拥有220亿参数的Vision Transformer（ViT），进一步推动了视觉任务的效果提升。科研进步的速度越来越快，不仅每天都有新的论文发表，而且模型版本也不断迭代，一代比一代大，一代比一代强。

面对这种趋势，很多研究者不禁思考：「除了追求更大的模型，还有哪些方向可以探索？如果实验室没有足够的计算资源，该如何选择合适的研究方向？」

李沐在其读论文系列中提到，朱老师分享了一些不那么依赖计算资源的项目经验，探讨如何在有限的计算资源内做出有意义的工作。总体包括以下四个方向：

Efficient Fine-Tuning

由于计算资源有限，提高效率是最直接的方式。通过让方法变得更高效，可以显著减少计算成本。一个典型例子是Parameter-Efficient Fine-Tuning (PEFT)，即参数高效的微调方法。这种方法可以在保持模型性能的同时，大幅减少所需的计算资源。例如，使用低秩适应（LoRA）、前缀调优（Prefix Tuning）等技术来微调大模型，既能提高效率又能保持模型的有效性。

Existing Stuff (pretrained model) + New directions

尽量避免从头预训练模型，充分利用已有的预训练模型。例如，CLIP模型发布后，催生了大量的后续研究，直接调用CLIP进行各种有趣的应用，产生了广泛的影响。此外，选择较新的研究方向可以避免过度竞争，并且不需要频繁刷榜，从而能够专注于自己感兴趣的科研工作。

即插即用模块（Plug-and-play Modules）

开发通用的即插即用模块，这些模块可以是模型组件、目标函数、损失函数或数据增强方法。关键在于这些模块简单易用，能够应用于多个领域。通过在多个基准上进行公平对比实验，可以有效验证模块的有效性，而无需在特别大的数据集或模型上进行大规模实验。

Dataset、evaluation and survey

最后一个方向是构建数据集、撰写分析文章或综述论文。这不仅是最不需要计算资源的方向之一，而且同样具有重要影响力。通过提供新颖的数据集或深入分析现有工作，可以为整个领域带来新的见解，并加深自己对领域的理解。

思路1：使用PEFT做大模型预训练

在大模型时代，计算资源的限制使得从头训练大规模模型变得不切实际。Parameter-Efficient Fine-Tuning (PEFT) 是一种高效的方法，通过冻结大部分模型参数，仅对部分模块进行微调，从而显著减少计算成本。

以作者团队发表的论文《AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION》（ICML 2023）为例，该工作旨在视频动作识别任务中应用图像模型，具体方法是通过添加时序处理模块来增强已有的图像模型，而无需重新训练整个模型。其工作过程如下图所示。

传统的视频理解方法大致可以分为两类：

时空分离处理：先用大规模图像数据集预训练图像模型（如ResNet50或ViT），然后在此基础上添加时序处理模块（如Time Transformer，，就是先做Time Attention，再做Spatial Attention，把Special、Temporal劈开来做）。
联合时空处理：使用3D网络（如Video Swin Transformer），直接在时间和空间维度上进行建模，把2D的Shifted Window变成了3D的Shifted Window。

这些方法的主要问题在于需要对整个模型进行全量微调（Full Fine-Tune），导致训练时间长、计算资源消耗大。

那么，这里建议用什么方法呢？「Adapter和Prompt-Tuning。」

Adapter

Adapter最早出现在2019年的论文《Parameter-Efficient Transfer Learning for NLP》中，最初是为自然语言处理（NLP）任务设计的。随着Transformer架构在视觉和多模态任务中的广泛应用，许多原本用于NLP的技术被成功迁移到了这些领域。因此，Adapter方法在视觉和多模态任务中也表现出色。

「什么是Adapter？」

Adapter是一种即插即用的模块，通常由以下几部分组成：

下采样层（Down-projection Layer）：将输入维度降低。
非线性激活函数（Non-linear Activation Function）：引入非线性变换。
上采样层（Up-projection Layer）：将维度恢复到原始大小。
残差连接（Residual Connection）：保持输入输出的一致性，有助于梯度传播。

「加Adapter的作用是什么？」

Adapter的主要作用是通过添加少量可学习参数来增强预训练模型的能力，而不需要对整个模型进行全量微调。具体来说：

冻结大部分参数：原有大模型的参数（如Transformer中的权重）被冻结，不会在微调过程中更新。
仅更新Adapter层：新添加的Adapter层包含少量参数，这些参数会在微调过程中不断学习和优化。

由于Adapter层只包含两层全连接层（FC），并且有下采样的过程，因此其参数量非常少。相比于动辄几亿、几十亿甚至几百亿参数的大规模语言模型，新增的Adapter参数量可以忽略不计。

例如，在最新的PEFT方法LoRA中，如果在一个超大规模模型（如GPT-3 175B参数）中使用LoRA，最终需要训练的参数量仅为原模型参数的1/10,000，这使得参数量的节省非常显著。

「Adapter的应用实例」

在《AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION》（ICML 2023）中，作者团队通过引入Adapter模块来增强预训练的图像模型，使其能够应用于视频动作识别任务。具体来说，他们提出了三种不同的Adapter设计方案：Spatial Adaptation、Temporal Adaptation 和 Joint Adaptation。

Spatial Adaptation

设计思路：
在已有的ViT Block之上，冻结所有参数。
只在Self-Attention层后面添加一层Adapter。
目的：不是直接添加视频理解或时序建模的能力，而是通过添加少量可学习参数，尝试将图像特征迁移到视频数据集，解决域差距domain gap问题。
效果：实验结果显示，这一步已经非常有用，但因为缺少时序建模能力，在许多视频数据集上的表现仍然不如全量微调full fine tuning的模型。

Temporal Adaptation

设计思路：
在现有架构中引入时序建模能力。
使用两个Self-Attention层和一个MLP，这些层的参数完全一致且被冻结。
通过Reshape操作使自注意力机制分别关注空间和时间维度。
添加额外的Adapter以确保每个Self-Attention层专注于特定维度的信息（Spatial或Temporal）。
实现细节：
输入数据先reshape为时序维度，再进行自注意力计算。
reshape回来后，再进行正常的空间自注意力计算。
两个额外的Adapter帮助模型学习更多关注Spatial或Temporal维度的信息。
效果：
加入Temporal Adaptation后，性能显著提升，基本上可以匹配甚至超越之前的全量微调模型。

Joint Adaptation

设计思路：
在MLP旁边再加一个Adapter，结合空间和时间适应。
目标是让三个Adapter各司其职，分别处理空间、时间和时空联合信息，简化优化问题。
实现细节：
开始时做时序建模（temporal），然后做空间建模（spatial），最后做时空联合建模（special-temporal）。
每个Adapter负责学习特定部分的信息，尽量使优化过程更简单有效。
效果：
通过这种方式，模型性能进一步提升，达到了更好的视频动作识别效果。

Prompt Tuning

「什么是Prompt?」

Prompt是一种提示机制，通过给模型提供特定的文本或指令，引导模型执行特定任务。例如，在CLIP模型中，Prompt用于图像分类时，可以通过将类别名称嵌入到提示语句中，让模型根据图像和文本特征的相似度进行分类。

「Prompt Tuning的作用」

Prompt Tuning 的核心在于调整Prompt的内容，以优化模型在特定任务上的性能。不同的Prompt设计可以显著影响最终结果。例如：

简单Prompt：直接使用类别名称（如a [class]），可以达到较高的准确率。
复杂Prompt：使用更详细的描述（如a photo of a [class]），有时反而会降低准确率。
微调Prompt：通过实验发现最优的Prompt形式，如a photo of a [class]比a photo of [class]效果更好。

Prompt Tuning的Tuning体现在以下几个方面：

Prompt内容的选择：

不同的文本模板对模型性能的影响非常大。例如，在CoOp中，对于一张飞机的图片：
使用a [class]作为Prompt时，准确率非常高。
使用a photo of [class]时，准确率反而下降。
更神奇的是，如果在of后面再加一个a，即a photo of a [class]，准确率可以从80%提升到86%。

Prompt长度和结构：

Prompt的长度和结构也会影响模型的表现。较短的Prompt可能更简洁有效，而较长的Prompt则可能引入不必要的噪声。
例如，a photo of a [class]相比a [class]多了一个词，但带来了显著的性能提升。

Prompt的多样性：

在不同任务中，选择合适的Prompt至关重要。不论是分类任务还是图像生成任务，Prompt的设计都对最终结果有重大影响。
例如，在分类任务中，Prompt的设计可以显著提高分类准确率；而在图像生成任务中，Prompt可以控制生成图像的风格和内容。

「Hard Prompt与Soft Prompt」

Hard Prompt：预先写好的固定文本模板，一旦确定就不能再改变。例如a photo of [class]。

先验知识依赖：需要一定的先验知识来设计有效的Prompt，但这些先验知识并不总是可用或有效。
灵活性不足：固定的Prompt无法适应不同的任务需求，限制了模型的泛化能力。

Soft Prompt：引入一个可学习的向量[V]_1 [V]_2 … [V]_M [CLASS]，作为文本编码器的输入。这个向量在训练过程中根据损失函数进行更新，而模型的其他参数保持冻结。通过这种方式，模型能够在不同的下游任务中泛化得更好，避免了手动设计Prompt的麻烦。

总览图如下所示。展示了模型在推理和训练时的工作流程：

推理阶段：文本分支的Prompt进入文本编码器，图像进入图像编码器，然后计算文本特征和图像特征的相似度，选择相似度最高的类别。
训练阶段（Soft Prompt）：文本端输入不再是固定的 a photo of [class]，而是一个可学习的上下文（context）。通过这种方式，模型在训练过程中不断优化Prompt，以提高性能。

通过这种方式——即冻结原始模型参数，仅学习Prompt——可以显著降低计算量，并且在迁移学习中帮助模型学到更好的Prompt。这不仅提高了效率，还简化了下游任务的适配过程，使得大模型的应用更加灵活和高效。

尽管这里讨论的是文本端的Prompt，但这种技术也适用于多模态任务。例如，在图像分类中，Prompt Tuning可以通过学习更有效的文本描述来提升模型性能。因此，它不仅限于NLP领域，还可以广泛应用于计算机视觉和其他多模态任务。

「纯视觉的prompt」

在纯视觉任务中，Prompt Tuning同样可以应用，以提高模型性能并减少计算资源的需求。2022年初的一篇论文《Visual Prompt Tuning》（VPD）首次将Prompt Tuning应用于纯视觉任务，展示了其在图像分类等任务中的有效性。

VPT的核心思想是通过引入可学习的Prompt向量来增强预训练的视觉模型，而无需重新训练整个模型。具体来说，VPT提出了两种方式：VPT Shallow 和 VPT Deep。

VPT Shallow：在输入端添加一个可学习的Prompt。具体来讲，给定一张图片，首先将其分割成patch，然后这些patch通过embedding层得到token序列（例如，224×224的图片打成patch后变成长度为196的token sequence）。这个token序列作为Transformer的输入（E0）。Prompt被插入到这个序列之前。只有Prompt是可学习的，其余模型参数保持冻结。目标函数仅用于优化这个Prompt，使得模型能够在下游任务中表现更好。
VPT Deep：在每一层Transformer的输入和输出之间添加可学习的Prompt。增加了可学习的参数量，因此在实验中通常表现更好。由于在每一层都引入了Prompt，模型能够更深入地学习到特定任务的信息，从而提高了整体性能。

总之，不论是Adapter、Hard Prompt、Soft Prompt，还是Visual Prompt Tuning（VPT），它们的共通性在于：

冻结预训练模型参数：保持已训练好的大模型参数不变，避免重新训练整个模型。
引入少量可学习参数：通过添加少量可学习的模块或向量（如Adapter层、Prompt向量等）来增强模型性能。
提高效率和性能：不仅减少了计算资源的需求，还在许多情况下提升了模型在下游任务中的表现。

这些方法在近年来受到广泛关注，Hugging Face开发了一个专门用于Parameter-Efficient Fine-Tuning (PEFT)的工具包（https://github.com/huggingface/peft），旨在帮助研究者在硬件资源有限的情况下进行大模型的微调和应用。具体特点如下：

低资源需求：即使GPU内存不高，也能高效地进行微调。
易于使用：提供了简单易用的API，方便快速上手。
广泛支持：支持多种PEFT方法，如LoRA、Prefix Tuning、Adapter等。

思路2：Existing Stuff (Pretrained Model) + New Directions 尽量避免预训练，借助已有的东西

在计算资源有限的情况下，尽量避免从头进行预训练是一个明智的选择。预训练模型的规模越来越大，所需的计算资源也越来越多，对于大多数研究者来说，重新预训练一个大模型几乎是不可能的任务。因此，更有效的方法是充分利用现有的预训练模型，并在此基础上探索新的研究方向。

「为什么避免预训练？」

资源消耗巨大：

预训练模型的规模不断增大，例如LLaMA、GPT-3和PaLM等模型动辄包含数十亿甚至数千亿参数。
2020年或2021年时，可能还能用8卡机器训练两三天完成预训练，但现在这种规模的实验已经不太现实。
使用小模型和小数据集进行预训练可能会导致性能不佳，无法验证方法的有效性。

效果不明显：

如果使用小模型和小数据集进行预训练，可能会错过一些需要大规模数据和模型才能显现的效果（即“大力出奇迹”）。
这使得难以判断你的方法是否真正有效。

总之，

尽量不要预训练，尽量用人家已经训练好的模型，如CLIP、ViT、BERT等。很多工作CLIP 出来之后这么短的时间内能把Detection, Segmentation, depth, action, Audio 所有的这些工作全都拓展开来，其实还是因为直接利用 CLIP 预训练好的模型，不去做预训练，只做 fine tuning 这个计算资源是能节省很多的。
尽量选一些新的方法或者新的Topic去做，尤其是那些被认为比较超前的topic。在这些领域中，可能还没有大规模的数据集或成熟的benchmark，这使得你可以自己选择数据和设置，降低实验规模。再就是没有那么多已有的工作需要竞争，可以专心提高自己的方法，而不必担心比不过别人。

以ICLR 2023年的论文《Unsupervised Semantic Segmentation with Self-supervised Object-centric Representations》为例，该论文展示了如何利用已训练好的网络提取特征，从而节省大量计算资源。此外，Object-Centric Learning这个方向并不是很新的Topic，但是还是属于一个正在蓬勃发展的一个topic，玩家不是那么多，数据集也不是那么大。

最主要的就是Unsupervised Object Category Discovery，就是怎么样能让这个模型无监督的情况下去找到这个新的物体。

在计算机视觉领域，Object-Centric Learning近年来备受关注。研究者们认为，整体理解图像的方式并不总是最合理的。就像人类感知世界时，通常会先聚焦于特定的物体或人，再通过这些对象之间的关系来理解整个场景。因此，基于对象级别的表示（object-level representation）被认为比全局学习（global learning）更有效。如果能以无监督或自监督的方式学习这些特征，那就更加理想了。

Unsupervised Object Category Discovery 的核心问题是：如何让模型在无监督的情况下找到并识别新的物体？虽然称为“无监督”，但实际上往往通过设计特定任务或标签来引导模型学习。具体到语义分割任务，获取初始的mask信息是关键的第一步。

定位——借助已有模型获取mask信息

为了获得初始的mask信息，论文使用了DeepUSPS等显著性检测方法。这些方法可以为输入图像生成显著性区域的mask，尽管这些mask可能比较粗糙且不完全准确，但提供了初步的物体定位信息。例如，对于一张包含圆形和菱形的图片，显著性检测能够识别出圆形作为显著区域，从而生成一个初步的mask。

分类——借助已有模型抽取特征，判断类别

接下来，需要对检测到的对象进行分类。为此，论文利用了预训练的DINO模型来抽取每个对象的特征。DINO是一个强大的自监督学习模型，能够为图像提供高质量的特征表示。例如，将抠出的圆形和菱形分别resize为224×224的标准尺寸，然后输入DINO模型，得到每个对象的1024维全局特征向量。

聚类与伪标签生成

将提取到的特征进行聚类处理。由于聚类是无监督的，它能够为每个对象分配一个类别ID（如0、1、2等），形成Noisy Pseudo masks。经过聚类后，圆形可能被标记为类别0，菱形被标记为类别1。虽然这些类别ID只是相对标识，并不代表真实的类别名称，但它们为后续训练提供了基础的标签信息。

自训练与多轮迭代

有了初步的mask和类别ID后，可以直接训练一个语义分割网络。为了提高模型的泛化能力，特别是处理多对象场景的能力，论文引入了自训练机制。通过多次迭代，模型逐渐学会识别更多种类的物体，甚至发现新的类别。在多个训练轮回中，模型不断优化自身的分割和分类能力，最终达到较好的无监督语义分割效果。

思路3：Plug-and-play即插即用模块

在计算资源有限的情况下，开发通用的即插即用模块是一个非常有效的研究方向。这些模块可以是模型组件、目标函数或数据增强方法。关键在于它们简单易用，能够应用于多个领域，并且可以通过公平的对比实验验证其有效性。

「为什么说做这个方向对计算资源的要求会少呢？」

证明一个方法的有效性并不一定需要在某个数据集上取得第一名。有时，过度拟合反而不能证明方法的有效性。真正有效的方法往往是那些能够泛化到各种任务和数据集上的简单方法。

因此，可以选择多个基准（baseline），设定一个公平的实验环境（setting），根据计算资源灵活调整实验规模。只要在这个环境中，所有基准加上即插即用模块后都能有统一的性能提升，并能给出合理的分析，就能证明方法的有效性。

「在多模态大模型中，很多都没有用数据增强，有的只是用了很基础的数据增强。这是为什么呢？原因是数据增强之后，原来的图像文本对，可能就不再是一对了。」

例如，当对图片进行颜色抖动（color jittering）时，原本描述的颜色信息可能不再匹配；水平或垂直翻转（random flip）会改变位置描述词的意义，导致图像和文本不再匹配。

「怎么才能让这个信息不丢失，怎么才能最大程度上把这个信息给保留起来呢？」

为了最大程度地保留原始信息，MixGen 提出了一种新的数据增强方法，适用于多模态任务。假设有一个多模态数据集，包含两个图片文本对 ((I_1, T_1)) 和 ((I_2, T_2))，具体实现步骤如下：

图像处理：对 ( I_1 ) 和 ( I_2 ) 进行线性插值，生成新的图片 ( I_3 )。虽然生成的图片看起来可能有些诡异，但它保留了两张原始图片的大部分信息，包括物体、背景和上下文。
文本处理：将 ( T_1 ) 和 ( T_2 ) 直接拼接，生成新的句子 ( T_3 )。这样可以确保所有单词都保留在新生成的句子中，最大程度地保留了原始文本的信息。

通过这种方法，得到一个新的训练样本 ((I_3, T_3))。尽管新生成的图像和文本可能描述的是不相关的概念，但从整体信息量上来说，它最大程度地保留了原始信息，保证了新生成的图像文本对尽可能还是一个匹配的pair。

实验结果显示，在各种设置、数据集和任务下，MixGen 方法都有统一的性能提升。这表明该方法具有良好的泛化能力和实际应用价值。

尽管MixGen论文第一次投稿NeurIPS没有被接受，但审稿人的反馈提供了宝贵的改进建议：

数据增强通常是在数据不足时的选择。在多模态预训练中，由于已有大量数据，确实不需要复杂的数据增强。但在下游任务的微调阶段，由于数据集较小，考虑使用这种数据增强是有意义的。
可以在多模态下游任务的微调阶段进一步验证 MixGen 的效果，特别是在数据集较小的情况下，展示其带来的显著性能提升。

思路4：做一个数据集、分析为主的论文或综述性论文

在计算资源有限的情况下，构建数据集、撰写分析性论文或综述性论文是一个非常有效的研究方向。这些工作不仅对计算资源的要求最低，甚至有时只需要断断续续的少量计算资源即可完成。这类研究不仅能为领域带来新的见解，还能加深你对现有工作的理解，并为未来的研究提供有价值的参考。

构建一个新的数据集

构建数据集并不一定需要巨大的投入和资源。通过巧妙地整合现有的数据集，或者对现有数据进行重新组织和标注，可以创建出具有独特价值的新数据集。以下是一些具体的做法：

以BigDetection数据集为例，

整合现有数据集：将多个已有的数据集（如LVIS、OpenImages和Object365）合并成一个更大的数据集。
类别处理：解决不同数据集中类别不一致的问题，通过合理的类别映射和重新分布，确保新数据集的类别定义统一且符合任务需求。
任务导向：根据预训练或下游任务的需求，调整数据集的类别细粒度和分布。例如，如果目标是预训练，可以选择更广泛的类别；如果是下游任务，则可以根据特定领域的需求进行调整。

最终生成了一个包含600类目标检测的数据集，拥有超过340万张训练图片和3600万个边界框标注。这个数据集不仅规模庞大，而且适用于各种目标检测器的预训练，显著提升了模型的泛化性能和少样本学习能力。

撰写分析性论文或综述性论文

撰写以评价和分析为主的文章或综述性论文，有助于深入理解现有方法的优点和局限，找到当前研究的痛点和未来的发展方向。这类工作不仅对科研有极大帮助，而且通常不需要大量的计算资源。

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。

大模型就业发展前景

根据脉脉发布的《2024年度人才迁徙报告》显示，AI相关岗位的需求在2024年就已经十分强劲，TOP20热招岗位中，有5个与AI相关。
在这里插入图片描述字节、阿里等多个头部公司AI人才紧缺，包括算法工程师、人工智能工程师、推荐算法、大模型算法以及自然语言处理等。

除了上述技术岗外，AI也催生除了一系列高薪非技术类岗位，如AI产品经理、产品主管等，平均月薪也达到了5-6万左右。
AI正在改变各行各业，行动力强的人，早已吃到了第一波红利。