这段话讨论了在微调大模型(如GPT、BERT等)时所采用的一些方法和技术,以解决部署成本和灾难性遗忘问题。以下是对这段话的详细解释:
微调大模型中的问题和解决方案
1. 部署成本
问题:
- 传统的微调方法需要为每个下游任务(如分类、生成等)部署一个单独的模型。
- 每个模型的大小通常是数GB级别的,导致了高昂的存储和计算资源成本。
解决方案:
- 使用特定的方法,只需调整预训练模型的一小部分参数,而不是整个模型。
- 这些调整后的参数通常只有几MB,而不是几GB。
- 预训练模型作为“主干”(backbone),而针对每个任务的特定参数作为“头部”(heads)。
- 这样,每个任务只需要额外加载少量参数,大大减少了存储和计算成本。
这种方法的典型代表是参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)。例如,LoRA(Low-Rank Adaptation)和Adapter等方法,它们只调整模型的一部分参数,而保持大部分预训练模型参数不变。
2. 灾难性遗忘(Catastrophic Forgetting)
问题:
- 当模型在一个新任务上进行微调时,可能会“忘记”之前学到的知识。
- 这种现象被称为灾难性遗忘,在多任务学习或持续学习中尤其严重。
解决方案:
- 使用上述的参数高效微调方法,有助于减少灾难性遗忘。
- 这些方法允许模型保留原有任务的参数,同时只对少量参数进行微调,从而在进行新任务微调时保留旧任务的知识。
具体解释
-
部署成本降低:
- 传统方法:需要为每个任务保存和加载完整的模型,假设每个模型是2GB,10个任务就需要20GB。
- 参数高效方法:假设每个任务只需额外保存10MB的参数,10个任务只需要200MB,再加上共享的2GB主干,总共才2.2GB。
-
灾难性遗忘减少:
- 传统微调:在新任务上微调整个模型可能会改变模型的大量参数,从而“忘记”之前的任务。
- 参数高效方法:只微调少量参数,保留大部分原始模型参数,因此模型可以保留更多之前任务的知识。
举例说明
假设你有一个预训练的BERT模型,你希望在不同的文本分类任务上进行微调:
-
传统方法:
- 每个任务都需要一个完整的BERT模型副本,每个模型大小为1GB。
- 如果有10个任务,需要10GB的存储空间。
-
参数高效微调方法(如Adapter或LoRA):
- 预训练的BERT模型大小仍为1GB,但每个任务只需额外保存10MB的适配器参数。
- 总共需要1GB(预训练模型) + 10 * 10MB(适配器参数) = 1.1GB的存储空间。
-
灾难性遗忘:
- 使用Adapter方法,只对特定层添加适配器,不修改原始模型的权重,因此在微调新任务时,原始任务的知识被保留的更多,减少了灾难性遗忘。
结论
通过使用参数高效微调方法,可以显著降低模型部署的成本,同时减少灾难性遗忘的问题。这些方法允许共享预训练模型作为主干,仅为每个新任务添加少量参数,使得系统更加高效和可扩展。
238

被折叠的 条评论
为什么被折叠?



