【模型微调】超详细！AIGC面试系列大模型进阶(4)

本文链接：https://blog.csdn.net/dfagag/article/details/137023903

本期问题聚焦于大模型微调与微调相关技术

本期问题快览

什么情况下需要微调大模型？
什么是大模型参数微调？
什么是大模型的指令微调？
大模型参数微调的好处？
大模型指令微调的好处？
预训练和有监督微调操作有什么不同？
多轮对话任务如何微调模型？
微调后的模型出现能力劣化，灾难性遗忘是怎么回事？
微调模型需要多大显存？

什么情况下需要微调大模型？

在以下情况下，您可能需要对大型模型进行微调：

训练成本高昂：由于大型模型的参数量非常大，从头开始训练一个新模型的成本非常高。
Prompt Engineering的局限性：虽然Prompt Engineering是一种容易上手的方法，但它对输入序列长度有限制，可能导致推理成本增加和输出质量下降。
特定领域的性能提升：如果您有大量特定领域的数据，可以通过微调来提高模型在该领域的性能。
个性化服务：为了在个性化服务中使用大模型，可以针对每个用户的数据训练一个轻量级的微调模型。
数据安全问题：如果数据不能传递给第三方服务，建立自己的大模型并进行微调是必要的。

微调的方法包括全量微调（FFT）和参数高效微调（PEFT）。FFT涉及使用特定数据对模型的所有参数进行训练，而PEFT只对部分参数进行训练，以解决FFT中的成本高和灾难性遗忘问题。

References

什么是大模型参数微调？

大模型参数微调，即Fine Tuning，是一种深度学习技术，用于优化和调整预训练大模型以适应特定任务或数据集。在这个过程中，模型的参数会进行微小的调整，以提高其在特定任务上的表现。这通常涉及到在一个已经预训练好的大模型基础上，使用新的数据集进行额外的训练，从而使模型更好地适应新任务的需求。

微调可以通过不同的技术实现，例如全量微调（Full Fine Tuning）和参数高效微调（Parameter-Efficient Fine Tuning）。全量微调涉及到调整模型所有参数，而参数高效微调则只调整一部分参数，这样可以在保持大部分预训练知识的同时，减少计算资源的消耗。

这种方法对于那些没有资源从头开始训练大型模型的研究者和开发者来说非常有用，因为它们可以利用已有的预训练模型，并通过微调使其适应新的应用场景。

References

什么是大模型的指令微调？

大模型的指令微调是一种训练方法，它通过在特定的指令和输出对上进一步训练大型语言模型（LLM），来提高模型对人类指令的理解和响应能力。这种方法通常包含任务描述、一对输入输出以及示例（可选），帮助模型更好地执行任务，提高其推理能力和泛化到未见过任务的能力。例如，可以通过指令微调让模型学会如何根据问题“中国的首都是哪个城市？”回答“北京”。此外，还有一些高效的微调技术，如Lora、Adapter和Prefix-tuning，它们通过优化少量参数来减少训练的资源消耗。

References

大模型参数微调的好处？

性能提升：在下游任务上微调预训练的大模型可以带来显著的性能提升，尤其是在自然语言处理(NLP)任务中。
资源节约：与全量微调相比，参数高效微调技术只调整模型的一小部分参数，这样可以在有限的硬件资源下进行，降低了对计算资源的需求。
部署成本降低：参数高效微调避免了为每个下游任务独立存储和部署微调模型，因为这些模型与原始预训练模型的大小相同，节省了存储空间。
适应性强：通过微调，模型可以更好地适应特定的任务需求，提高了模型的灵活性和适用性。

例如，LoRA技术通过低秩分解来模拟参数的改变量，以极小的参数量实现大模型的间接训练，这样既保持了模型性能，又大大减少了参数量。此外，AdaLoRA等技术进一步优化了参数分配，根据权重矩阵的重要性自适应地分配参数预算。

References

大模型指令微调的好处？

提高模型的能力和可控性：通过在指令数据集上对大型语言模型（LLMs）进行微调，可以使模型更好地理解和遵循人类指令，从而提高模型的性能和对特定任务的适应性。
弥补训练目标与用户目标之间的差距：传统的大型语言模型通常在大规模语料库上进行训练，以预测下一个单词，而用户则希望模型能够“有用且安全地”遵循他们的指示。指令微调通过在（指令，输出）对的数据集上进一步训练模型，帮助缩小这一差距。
计算效率：指令微调可以在不需要大量再训练或架构更改的情况下，帮助模型快速适应特定领域或任务，从而节省时间和计算资源。

尽管指令微调带来了这些好处，但它也面临着一些挑战，如制作高质量的指令数据集、确保模型能够泛化到未见过的任务、以及处理意料之外的模型响应等。这些挑战需要进一步的研究和探索，以优化微调过程并更好地理解指令微调LLMs的行为。

References

预训练和有监督微调操作有什么不同？

预训练（Pre-training）和有监督微调（Supervised Fine-tuning）是深度学习模型训练过程中的两个不同阶段。

预训练是在大规模数据集上进行的，目的是让模型学习到通用的特征表示。这个阶段通常不需要标签数据，模型通过无监督或自监督的方式来捕捉数据的内在结构和模式。例如，在自然语言处理中，可以使用BERT或GPT这样的模型在大量文本上进行预训练，学习语言的基本结构。

有监督微调则是在预训练的基础上，使用特定任务的有标签数据集对模型进行进一步的训练。这个阶段的目的是让模型适应特定任务的需求，学习任务相关的特征。在这个过程中，模型会保留预训练阶段学到的知识，并在此基础上进行调整以适应新任务。

简而言之，预训练关注于学习通用知识，而有监督微调则关注于将这些知识应用于具体任务。预训练提供了一个良好的起点，有监督微调则使模型能够更好地完成特定的任务。

References

多轮对话任务如何微调模型？

单轮微调：这种方法只关注最后一轮对话的回复作为学习目标，其他部分作为条件输入，不参与学习。这种方法简单，但可能会导致信息丢失。
多样本微调：将多轮对话拆分成多个样本，使模型能够学习每一轮的回复。这种方法可以充分利用所有回复信息，但效率较低。
全轮次微调：构造包含所有机器人回复内容的标签，这样既能充分利用所有回复信息，又避免了重复计算，提高了效率。

具体实施时，可以选择适合你数据和模型的方法。例如，使用因果语言模型（Causal Language Model, CLM）时，可以利用其注意力机制的特点，通过并行计算每个位置的损失（loss），只让助手部分的损失参与权重更新，从而实现高效的多轮对话微调。

此外，还需要考虑数据预处理、模型结构定义、训练过程中的优化算法选择等因素。在训练完成后，通过测试数据评估模型性能，并根据结果进行必要的模型优化和调整。

References

微调后的模型出现能力劣化，灾难性遗忘是怎么回事？

在深度学习中，灾难性遗忘（Catastrophic Forgetting）是指当一个神经网络学习新任务时，它会忘记之前学到的知识。这通常发生在对模型进行微调时，尤其是在大型语言模型（如GPT-3等）上。当模型在特定数据集上进行微调以提高在该任务上的表现时，它可能会丢失在预训练阶段学到的通用知识。

为了缓解灾难性遗忘，研究者们提出了多种方法。例如，LoRA（Low-Rank Adaptation）技术通过将权重矩阵分解为两个较小的矩阵，以降低计算成本并提高效率。还有自我蒸馏（Self-Distillation）方法，它通过模型本身对任务数据进行生成引导，构建自我蒸馏数据集，以减少与原始模型信息分布的差距。

此外，还有一些策略可以在微调过程中采用，如增量学习、知识蒸馏和正则化技术，以帮助模型在学习新任务时保留旧知识。这些方法的目标是在提高模型在特定任务上的性能的同时，保持其在其他任务上的通用性和灵活性。

References

微调模型需要多大显存？

微调模型所需的显存大小取决于多个因素，包括模型的参数量、精度类型以及是否进行全参数微调。一般来说，如果使用全精度（fp32）训练，每10亿个参数大约需要4GB的显存。如果使用半精度（如fp16或bf16），则每10亿个参数大约需要2GB的显存。此外，全参数微调通常需要比推理更多的显存，大约是推理所需显存的3-4倍，因为还需要考虑梯度和优化器状态的显存占用。

例如，如果一个模型有10亿个参数，那么在全精度下大约需要4GB的显存来进行推理。如果进行全参数微调，可能需要12-16GB的显存。

References