LLM微调中的Cost of deployment和Catastrophic forgetting

最新推荐文章于 2025-12-19 10:41:59 发布

原创最新推荐文章于 2025-12-19 10:41:59 发布 · 416 阅读

CC 4.0 BY-SA版权

文章标签：

这段话讨论了在微调大模型（如GPT、BERT等）时所采用的一些方法和技术，以解决部署成本和灾难性遗忘问题。以下是对这段话的详细解释：

问题：

解决方案：

这种方法的典型代表是参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）。例如，LoRA（Low-Rank Adaptation）和Adapter等方法，它们只调整模型的一部分参数，而保持大部分预训练模型参数不变。

问题：

解决方案：

部署成本降低：
- 传统方法：需要为每个任务保存和加载完整的模型，假设每个模型是2GB，10个任务就需要20GB。
- 参数高效方法：假设每个任务只需额外保存10MB的参数，10个任务只需要200MB，再加上共享的2GB主干，总共才2.2GB。
灾难性遗忘减少：
- 传统微调：在新任务上微调整个模型可能会改变模型的大量参数，从而“忘记”之前的任务。
- 参数高效方法：只微调少量参数，保留大部分原始模型参数，因此模型可以保留更多之前任务的知识。

假设你有一个预训练的BERT模型，你希望在不同的文本分类任务上进行微调：

传统方法：
- 每个任务都需要一个完整的BERT模型副本，每个模型大小为1GB。
- 如果有10个任务，需要10GB的存储空间。
参数高效微调方法（如Adapter或LoRA）：
- 预训练的BERT模型大小仍为1GB，但每个任务只需额外保存10MB的适配器参数。
- 总共需要1GB（预训练模型） + 10 * 10MB（适配器参数） = 1.1GB的存储空间。
灾难性遗忘：
- 使用Adapter方法，只对特定层添加适配器，不修改原始模型的权重，因此在微调新任务时，原始任务的知识被保留的更多，减少了灾难性遗忘。

通过使用参数高效微调方法，可以显著降低模型部署的成本，同时减少灾难性遗忘的问题。这些方法允许共享预训练模型作为主干，仅为每个新任务添加少量参数，使得系统更加高效和可扩展。