1. 资源耗费问题
▶ 20B 模型部署、低成本微调和全量微调大概需要多少的 GPU 资源?
模型部署:3090 等 24G 显卡能够顺畅的使用 LMDeploy 对 internlm-20b 进行 4 bit 量化和部署推理,在不量化的情况下推理大概需要 50G 左右的显存,可用单卡 A100 或者四卡 3090 进行推理部署。
低成本微调:使用 XTuner 中的实现的 QLora 方法对 20B 模型微调,24G 的 3090 显卡能满足基本需求,但是在模型 Merge QLora 权重和原始权重阶段显存占用会超过 40G,可以考虑使用显存更大的卡(如单卡 A100 或者四卡 3090),或使用 offload (--offload-folder)技巧将模型加载至内存或硬盘。在前期学习阶段建议使用 internlm-7b 在 3090 等 24 G 显卡上进行实验测试。
全量微调:8 卡 A100 基本能满足 internlm 20b 模型的全量微调需求。