【LLM大模型】模型和指令微调方法

本文详细探讨了大语言模型(LLM)的发展,包括ChatGLM、LLaMA、RoBERTa、Bloom和PaLM等模型。重点介绍了指令微调的不同方法,如prompt tuning、prefix tuning、LoRA和p-tuning,以及在实践中如何有效地微调模型。文章还提到了基于LLM的医学问诊模型HuaTuo、Stanford Alpaca和Chinese-LLaMA-Alpaca的案例。此外,讨论了模型微调的工程注意事项,如显存管理和模型量化技术。
摘要由CSDN通过智能技术生成

note

  • Hugging Face 的 PEFT是一个库(LoRA 是其支持的技术之一,除此之外还有Prefix Tuning、P-Tuning、Prompt Tuning),可以让你使用各种基于 Transformer 结构的语言模型进行高效微调。
  • AIpaca羊驼:让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为 Alpaca 的训练数据,最后训练的羊驼只有7B参数量。可以使用LoRA微调优化。
  • LLM技术思路:
    • 语言模型:llama、bloom、glm等
    • 指令微调数据:alpaca_data、bella_data、guanaco_data等。目前指令微调数据上,很依赖alpaca以及chatgpt的self-instruct数据。数据处理参考下图:
    • 微调加速: lora(如Alpaca-Lora)等,还可以使用peft库、量化工具包bitsandbytes、deepspeed(先读torch.distributed和ColossalAI在搞)、llama.cpp量化模型。在LoRA方法提出之前,也有很多方法尝试解决大模型微调困境的方法。其中有两个主要的方向:
      • 添加adapter层。adapter就是固定原有的参数,并添加一些额外参数用于微调;
      • 由于某种形式的输入层激活。
  • 训练优化方法:量化、3D并行、cpu卸载
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值