Llama-1｜Alpaca-LoRA 微调模型下载以及安装推理教程

最新推荐文章于 2024-05-01 13:33:50 发布

VIP文章产品大道

最新推荐文章于 2024-05-01 13:33:50 发布

阅读量736

点赞数

分类专栏：人工智能文章标签：人工智能语言模型 llama

本文链接：https://blog.csdn.net/u010291330/article/details/132580797

版权

LLaMA｜Alpaca-LoRA-openAI维基百科

Llama-1｜Alpaca-LoRA 微调模型下载以及安装推理教程

经常玩AI的人应该对LoRA这一词并不陌生，尤其是在SD绘画领域，各种角色的LoRA模型层出不穷。那么语言领域是否存在LoRA呢？存在，且繁荣！

LoRA你可以理解为语言模型的一个角色，同绘画领域是一致的，是一个基于大模型所单独调教好的指定角色。比如Llama-1在泄漏之初的对话能力是极差的，仅能够通过排比式语句或其它方式引导其回复指定内容。这个时候LoRA技术的好处就体现了出来，我们如果直接对LLaMA大模型进行训练调整，这将是地狱级别的硬件消耗，然后我们可以冻结基础模型，通过嵌入式LoRA来对LLaMA进行微调，让其拥有指定的特殊功能强化。有点类似于你在SD中加载了刘亦菲，那么生成后的角色样貌总是和刘亦菲相似；又比如你基于官方模型SD-1.5大模型训练了一个李白，那么后生成的角色也都是围绕着李白的样貌。

项目描述

Alpaca模型是由坦福大学研发的LLM（Large Language Model大语言）开源模型，是一个在52K指令上从LLaMA 7B（Meta公司开源的7B）模型微调而来，具有70亿的模型参数（模型参数越大，模型的推理能力越强，当然随之训练模型的成本也就越高），而Alpaca-LoRA正是依托于此。

该代码库包含用于复现Stanford Alpaca使用低秩适应（LoRA）的结果的代码。我们提供了一个类似质量的Instruct模型，可以在树莓派上运行（用于研究），代码可以轻松扩展到 [其他模型] [此处可能缺少部分文本] text-davinci-003 13b 30b 65b。

除了训练代码，在单个RTX 4090上运行数小时之外，我们还发布了一个用于下载基础模型和LoRA上进行推理的脚本，以及得到的LoRA权重本身。为了进行便宜高效的微调，我们使用了Hugging Face的PEFT以及Tim Dettmers的bitsandbytes。

在没有超参数调整的情况下，LoRA模型产生的输出与Stanford Alpaca模型相当，进一步的调整可能能够获得更好的性能。

LLaMA｜Alpaca-LoRA-openAI维基百科