LLM微调中的Cost of deployment和Catastrophic forgetting

Flemington8

于 2024-05-18 20:30:44 发布

阅读量334

点赞数 6

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Flemington7/article/details/139030974

版权

这段话讨论了在微调大模型（如GPT、BERT等）时所采用的一些方法和技术，以解决部署成本和灾难性遗忘问题。以下是对这段话的详细解释：

微调大模型中的问题和解决方案

1. 部署成本

问题：

传统的微调方法需要为每个下游任务（如分类、生成等）部署一个单独的模型。
每个模型的大小通常是数GB级别的，导致了高昂的存储和计算资源成本。

解决方案：

使用特定的方法，只需调整预训练模型的一小部分参数，而不是整个模型。
这些调整后的参数通常只有几MB，而不是几GB。
预训练模型作为“主干”（backbone），而针对每个任务的特定参数作为“头部”（heads）。
这样，每个任务只需要额外加载少量参数，大大减少了存储和计算成本。

这种方法的典型代表是参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）。例如，LoRA（Low-Rank Adaptation）和Adapter等方法，它们只调整模型的一部分参数，而保持大部分预训练模型参数不变。

2. 灾难性遗忘（Catastrophic Forgetting）

问题：

当模型在一个新任务上进行微调时，可能会“忘记”之前学到的知识。
这种现象被称为灾难性遗忘，在多任务学习或持续学习中尤其严重。

解决方案：

使用上述的参数高效微调方法，有助于减少灾难性遗忘。
这些方法允许模型保留原有任务的参数，同时只对少量参数进行微调，从而在进行新任务微调时保留旧任务的知识。

具体解释

部署成本降低：
- 传统方法：需要为每个任务保存和加载完整的模型，假设每个模型是2GB，10个任务就需要20GB。
- 参数高效方法：假设每个任务只需额外保存10MB的参数，10个任务只需要200MB，再加上共享的2GB主干，总共才2.2GB。
灾难性遗忘减少：
- 传统微调：在新任务上微调整个模型可能会改变模型的大量参数，从而“忘记”之前的任务。
- 参数高效方法：只微调少量参数，保留大部分原始模型参数，因此模型可以保留更多之前任务的知识。

举例说明

假设你有一个预训练的BERT模型，你希望在不同的文本分类任务上进行微调：

传统方法：
- 每个任务都需要一个完整的BERT模型副本，每个模型大小为1GB。
- 如果有10个任务，需要10GB的存储空间。
参数高效微调方法（如Adapter或LoRA）：
- 预训练的BERT模型大小仍为1GB，但每个任务只需额外保存10MB的适配器参数。
- 总共需要1GB（预训练模型） + 10 * 10MB（适配器参数） = 1.1GB的存储空间。
灾难性遗忘：
- 使用Adapter方法，只对特定层添加适配器，不修改原始模型的权重，因此在微调新任务时，原始任务的知识被保留的更多，减少了灾难性遗忘。

结论

通过使用参数高效微调方法，可以显著降低模型部署的成本，同时减少灾难性遗忘的问题。这些方法允许共享预训练模型作为主干，仅为每个新任务添加少量参数，使得系统更加高效和可扩展。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。