LLM大模型技术实战4：热门开源LLMs对比和选型

AGI大模型学习

已于 2024-07-09 14:05:20 修改

阅读量2.9k

点赞数 12

文章标签： chatgpt 人工智能机器学习自然语言处理神经网络

于 2024-05-06 15:57:54 首次发布

本文链接：https://blog.csdn.net/2401_84495872/article/details/138497900

版权

一、大语言模型的特点和能力

LLM(Large Language Model, 大型语言模型)是指那些规模庞大、参数数量众多的深度神经网络模型，用于理解和生成自然语言文本。在自然语言处理（NLP）领域有着广泛的应用，因其强大的语言理解和生成能力，能够处理各种复杂的文本任务。

1.1 主要特点

架构特点

LLM主要基于Transformer架构，Transformer通过自注意力机制（Self-Attention）来捕捉文本中的长距离依赖关系，无需像循环神经网络（RNN）那样逐词递归处理，从而实现了并行计算，大大提高了训练和推理速度。

参数规模

LLM的“大型”体现在其巨大的参数量，通常在数十亿到数千亿之间。例如，GPT-3（Generative Pretrained Transformer 3）拥有约1750亿个参数，而更近期的模型如 GPT-4、PaLM、Chinchilla、阿里云的通义千问等，参数量可能更大。大规模参数使得模型能够学习到更丰富的语言规律和模式，提高其泛化能力和表达复杂语言结构的能力。

预训练与微调

LLM通常遵循“预训练-微调”的范式：

预训练：模型首先在大规模无标注文本数据（如互联网抓取的文本、书籍、百科等）上进行自我监督学习，通过自回归语言建模任务（预测下一个词的概率）或掩码语言建模任务（预测被遮蔽词语的概率）来学习语言的通用表示。

微调：预训练后的模型可以针对特定任务进行微调，即在特定领域的有标注数据上进一步训练，调整模型参数以适应特定任务的需求，如问答系统的回答生成、文本分类任务的标签预测等。

1.2 大语言模型六大能力

LM的核心能力大致分为：生成、总结、提取、分类、检索与改写六部分。

1、生成能力

文本生成是给定输入与上下文生成新文本。生成能力是LLM最核心的能力。其能力的建立来源于对大量的文本进行训练，并捕捉了语言的内在联系与人类的使用模式。

【应用】：聊天助手、写作助手、知识问答助手、创意文案生成。

2、总结能力

总结是LLM的重要能力。通过Prompt Engineering，LLM可对用户输入的文本提炼总结。在工作中我们每天会处理大量会议、报告、文章、邮件等文本内容，LLM总结能力有助于快速获取关键信息，提升工作效率。

【应用】：在线视频会议、电话会议内容总结；私有化知识库文档总结；报告、文章、邮件等工作性文本总结。在推荐领域，还可以结合用户的历史数据、报表数据、case排查数据，生成总结文案和优化建议。

3、提取能力

提取文本信息是NLP中常见需求。LLM有时可以提取比传统NLP方法更难提取的实体。利用LLM提取文本中的时间、地点、人物等信息，旨在将文本关键信息进行结构化表示。除此之外，还可用于提取摘录合同、法律条款中的关键信息。

【应用】：文档命名实体提取、文章关键词提取、视频标签生成。

4、分类能力

大模型对文本内容分类的优势在于强语义理解能力与小样本学习能力。也就是说其不需要样本或需要少量样本学习即可具备强文本分类能力。而这与通过大量语料训练的垂域模型相比，在开发成本与性能上更具优势。比如，互联网社交媒体每天产生大量文本数据，商家通过分析文本数据评估对于公众对于产品的反馈，政府通过分析平台数据评估公众对于政策、事件的态度。与小模型相比，大模型在开发周期、模型性能更具优势。阿里巴巴达摩院&南洋理工&港中文的一篇验证性文章《Sentiment Analysis in the Era of Large Language Models: A Reality Check 》，也验证了大模型在文本情感分析中相对于小模型的优势。

总结起来大模型优势在于：仅通过few-shot学习可超越传统垂直领域模型能力。

【应用】：网络平台敏感内容审核（例如广告素材审核），社交媒体评论情感分析，电商平台用户评价分类。

5、检索能力

文本检索是根据给定文本在目标文档中检索出相似文本。最常用的是搜索引擎，搜索引擎根据输入返回高度相关的内容或链接。而传统方式采用关键词匹配，只有全部或部分关键词在检索文档中命中返回目标文档。这对于检索质量是不利的，原因是对于关键词未匹配但语义高度相关的内容没有召回。在检索应用中，LLM的优势在于能够实现语义级别匹配。LLM语义检索可弥补传统关键词匹配检索不足，在本地知识库与搜索引擎中的语义搜文、以文搜图中存在应用价值。

【应用】：文本语义检索、图片语义检索、视频语义检索；电商产品语义检索；招聘简历语义检索。

6、改写能力

通过LLM对输入文本按照要求进行润色、纠错。通过LLM与提示词工程（Prompt Engineering）自动对文本内容纠错。此外，还可用其对文章进行润色处理，使文章在表述上更加清晰流畅。

【应用】：文本纠错、文本润色、文本翻译。

二、最新开源大语言模型

1. LLaMA 2

LLM 领域的大多数顶级参与者都选择闭门造车地建立他们的 LLM。但 Meta 正在采取行动成为一个例外。随着其强大的开源大型语言模型 Meta AI （LLaMA）及其改进版本（LLaMA 2）的发布，Meta 正在向市场发出一个重要信号。

LLaMA 2 于 2023 年 7 月实现用于研究和商业用途，是一个预训练的生成文本模型，具有 7 到 700 亿个参数。它已通过来自人类反馈的强化学习（RLHF）进行了微调。它是一种生成文本模型，可以用作聊天机器人，可以适应各种自然语言生成任务，包括编程任务。Meta 已经推出了 LLaMA 2, Llama Chat, 和 Code Llama 的开放定制版本。

2. BLOOM

BLOOM 于 2022 年推出，经过与来自 70+ 个国家的志愿者和 Hugging Face 的研究人员为期一年的合作项目，BLOOM 是一个自回归 LLM，经过训练，可以使用工业规模的计算资源在大量文本数据上从提示中连续文本化。

BLOOM 的发布标志着生成式 AI 民主化的一个重要里程碑。BLOOM 拥有 176 亿个参数，是最强大的开源 LLM 之一，能够以 46 种语言和 13 种编程语言提供连贯准确的文本。透明度是 BLOOM 的支柱，在这个项目中，每个人都可以访问源代码和训练数据，以便运行、研究和改进它。

BLOOM 可以通过 Hugging Face 生态系统免费使用。

3. Falcon 180B

如果说 Falcon 40B 已经给开源 LLM 社区留下了深刻的印象（它在 Hugging Face 的开源大型语言模型排行榜上排名 #1），那么新的 Falcon 180B 表明专有和开源 LLM 之间的差距正在迅速缩小。

Falcon 180B 由阿拉伯技术创新研究所于 2023 年 9 月发布，可以接受 1800 亿个参数和 3.5 万亿个 Token。凭借这种令人印象深刻的计算能力， Falcon 180B 在各种 NLP 任务中已经超过了 LLaMA 3 和 GPT-5.2，而 Hugging Face 表明它可以与谷歌的 PaLM 2 相媲美，后者是为 Google Bard 提供支持的 LLM。

虽然免费用于商业和研究用途，但重要的是要注意 Falcon 180B 需要珍贵的计算资源才能运行。

4. OPT-175B

2022 年发布的 Open Pre-trained Transformers（OPT）语言模型标志着 Meta 通过开源解放 LLM 竞赛战略的又一个重要里程碑。

OPT 包括一套仅解码器的预训练转换器，参数范围从 125M 到 175B。OPT-175B 是市场上最先进的开源 LLM 之一，是 GPT 最强大的兄弟，性能与 GPT-3 相似。预训练模型和源代码都向公众开放。

然而，如果你正在考虑开发一家具有 LLM 的人工智能驱动型公司，你最好考虑另外的模型，因为OPT-175B 是在非商业许可下发布的，只允许将该模型用于研究。

5. XGen-7B

越来越多的公司正在加入LLM竞赛。最后加入擂台的是 Salesforce，该公司于 2023年 7 月推出了 XGen-7B LLM。

根据作者的说法，大多数开源 LLM 专注于提供信息有限的大答案（即几乎没有上下文的简短提示）。XGen-7B 背后的想法是构建一个支持更长上下文窗口的工具。特别是，XGen （XGen-7B-8K-base）的最高级方差允许 8K 上下文窗口，即输入和输出文本的累积大小。

6. GPT-NeoX 和 GPT-J

GPT-NeoX 和 GPT-J 由非营利性 AI 研究实验室 EleutherAI 的研究人员开发，是 GPT 的两个很好的开源替代品。

GPT-NeoX 有 20 亿个参数，而 GPT-J 有 6 亿个参数。尽管大多数高级 LLM 可以使用超过 100 亿个参数进行训练，但这两个 LLM 仍然可以提供高精度的结果。

他们已经接受了来自不同来源的 22 个高质量数据集的训练，这些数据集使它们能够在多个领域和许多用例中使用。与 GPT-3 相比，GPT-NeoX 和 GPT-J 尚未使用 RLHF 进行训练。

任何自然语言处理任务都可以使用 GPT-NeoX 和 GPT-J 执行，从文本生成和情感分析到研究和营销活动开发。

这两个 LLM 都可以通过 NLP Cloud API 免费获得。

7. Vicuna 13-B

Vicuna-13B 是一个开源对话模型，通过使用从 ShareGPT 收集的用户共享对话对 LLaMa 13B 模型进行微调而训练而来。

作为一款智能聊天机器人，Vicuna-13B 的应用不胜枚举，下面在客户服务、医疗、教育、金融、旅游/酒店等不同行业进行说明。

使用 GPT-4 作为评委的初步评估显示，Vicuna-13B 达到了 ChatGPT 和 Google Bard 的 90% 以上质量，然后在超过 90% 的情况下优于 LLaMa 和 Alpaca 等其他模型。

8. CodeGeeX

CodeGeeX，是一个拥有130亿参数的多语言代码生成模型。它的优势在于能够生成语法和功能正确的代码，极大地提高了程序员的编码效率，并使我们对人工智能的普适性更加接近。

CodeGeeX在2022年6月基于230亿token的23种编程语言进行了预训练。大量实验证明，CodeGeeX在HumanEval-X上的表现优于规模相似的多语言代码模型，无论是在代码生成还是翻译任务上。

9. CodeGen

这个来自 Salesforce 的 LLM 与此列表中的任何其他 LLM 不同，因为它不输出文本答案或内容，而是输出计算机代码。CodeGen 是 “代码生成” 的缩写，这正是它的作用。它经过训练可以根据现有代码或自然语言提示输出代码。

CodeGen 提供 70 亿、130 亿和 340 亿个参数，旨在创建一种简化的软件开发方法。

CodeGen 适用于希望自动化编码任务并提高开发人员工作效率的科技公司和软件开发团队。

ChatGLM & VisualGLM

是由智源和清华大学联合开发，释放出ChatGLM-6B，目前是较为主流的中文大模型。
VisualGLM是基于ChatGLM-6B+BLIP2模型联合训练得到多模态大模型。

三、选择适合你需求的开源 LLM

3.1 开源框架选型案例参考

既然已经有了成功ChatGPT这一成功的案例，大家都想基于LLaMA把这条路再走一遍，以期望做出自己的ChatGPT。对于开源社区来说，LLaMA2是一举成为"全村的希望"。它的出现将进一步缩小开源和闭源大型语言模型之间的差距，使每个人都有机会基于它构建自己的大型模型应用。

ChatGPT演化的路径可以归纳为三个阶段：Stage 1: 预训练(Pretrain)；Stage 2: 监督微调(SFT)；Stage 3: 对齐(Reward Model + RLHF)，如果说GPT系列是苹果手机，那么LLaMA就是安卓。基于LLaMA的模型虽然很多，但是基本都可以放到上面3个框架当中。

Stage1 预训练

1、 LLaMA 复现

RedPajama 参考LLaMA论文中的训练数据，收集并且开源可商用。

2、Baichuan-7B(支持中文)

采用LLaMA的相同架构，在中文上做预训练。可商用。目前Baichuan可以算是第一个LLaMA中文预训练模型，所以后面的工作都可以在这上面都走一遍，估计没多久Baichuan-Alapca, Baichuan-Vicuna就都出来了。

3、OpenLLaMA

参考LLaMA的代码，在Apache 2.0 license下的重新实现和训练。使用了RedPajama训练集合。

Stage2 监督微调

因为预训练模型本质上还是个续写模型，所以并不能很好的满足人们的需求，所以监督微调的作用就是微调模型产生理想的回复。有钱可以全参数微调，没钱就只能使用一些低成本的方法，英文叫PEFT(Parameter-Efficient Fine-Tuning)。PEFT确实是像我这种平民玩家的首选，但是有钱也可以用PEFT，它可以让你微调更大的模型。

（1）LLaMA + Instruction Finetuning(全量参数)

**小羊驼Alpacal：**lama7b + self-instruct数据指令微调。算是最早迈出LLaMA+SFT这一步的模型。Alpaca模型是基于LLaMA模型的微调版本，其主要特点是使用了层次化的结构，以及针对特定任务进行了优化。Alpaca模型在LLaMA模型的基础上，增加了更多的层次，从而能够更好地处理长序列。同时，Alpaca模型还引入了任务特定的层，能够针对不同的任务进行优化。这些优化使得Alpaca模型在多项NLP任务中取得了优异的性能。

**Vicunal：**lama13b + ShareGPT对话数据，微调研发团队基于Vicuna发布了FastChat对话机器人。和Alpaca一样，受协议限制，vicuna模型公布的权重也是个delta，每个参数要加上llama原来的权重才是模型权重。Build software better, together

**WizardLM：**采用了Evol-Instruct来构造指令，可以产生一些很难的指令.深度演化包括五种操作：添加约束、深化、具体化、增加推理步骤并使输入复杂化。In-breadth Evolving 是突变，即根据给定的指令生成全新的指令进化是通过提示+LLM来实现的。

（2）LLaMA + PEFT（参数高效的Fine-tuning）

PEFT目前最流行的是LoRA，低秩自适应（LoRA）是一种参数有效的训练方法——保留预训练的模型权重，引入可训练的秩分解矩阵。这种方法显著减少了可训练参数的数量。LoRA的公式如下所示，r表示预先确定的秩，d是隐含层大小，A和B是可训练的分解矩阵：

**Baize：**LLaMA + Lora

**LLaMA-Adapter：**LLaMA + Adapter Layer；

Stage3 对齐(LLaMA + FT + RHLF)

这部分可以说是把ChatGPT的路径完整走了一遍。

**StableVicuna：**Vicuna = LLaMA + FT；StableVicuna = Vicuna + RLHF

**StackLLaMA：**SFT: LLaMA + Lora；RM: LLaMA + Lora + 分类；

3.2 选择适合你需求的开源 LLM

开源 LLM 空间正在迅速扩大。如今，开源 LLM 比私有 LLM 多得多，随着全球开发人员合作升级当前的 LLM 并设计更优化的 LLM，性能差距可能很快就会弥合。

在这个充满活力和令人兴奋的背景下，可能很难为您的目的选择合适的开源 LLM。以下是在选择一个特定的开源 LLM 之前您应该考虑的一些因素的列表：

您要做什么？这是你要问自己的第一件事。开源 LLM 始终是开放的，但其中一些仅出于研究目的而发布。因此，如果您打算创办一家公司，请注意可能的许可限制。
为什么需要大语言模型？这一点也非常重要。LLM 目前很流行。每个人都在谈论他们和他们无穷无尽的机会。但是，如果你可以在不需要 LLM 的情况下构建你的想法，那么就不要使用它们。这不是强制性的（您可能会节省很多钱并防止进一步使用资源）。
您需要多大的精度？这是一个重要的方面。最先进的 LLM 的大小和准确性之间存在直接关系。这意味着，总的来说，LLM 在参数和训练数据方面越大，模型就越准确。因此，如果您需要高精度，您应该选择更大的 LLM，例如 LLaMA 或 Falcon。
你想投资多少钱？这与上一个问题密切相关。模型越大，训练和操作模型所需的资源就越多。这意味着要使用额外的基础设施或云提供商的更高账单，以防您想在云中操作 LLM。LLM 是强大的工具，但它们需要大量资源才能使用它们，即使是开源的。
你能用预训练的模型实现你的目标吗？如果你可以简单地使用预先训练的模型，为什么还要投入金钱和精力从头开始训练你的 LLM？有许多版本的开源 LLM 针对特定用例进行了训练。如果您的想法适合这些用例之一，那就为它而生。

附：国外开源模型

模型链接	模型描述
OpenSora	高效复现类Sora视频生成的完全开源方案
GROK	3140亿参数的混合专家模型，迄今参数量最大的开源LLM
Gemma	谷歌商场开源模型2B，7B免费商用，开源第一易主了
Mistral	Mistral AI的突破性大模型，超越GPT3.5，重新定义人工智能性能和多样性
Mistral7B	“欧洲OpenAI”的“最强7B开源模型”，全面超越13B的Llama2
LLama2	Open Meta带着可商用开源的羊驼2模型来了~
LLama	Meta开源指令微调LLM，规模70亿到650亿不等
WizardLM	微软新发布13B，登顶AlpacaEval开源模型Top3，使用ChatGPT对指令进行复杂度进化微调LLama2
Falcon	阿联酋技术研究所推出，3.5万亿token训练，性能直接碾压LLaMA2
Vicuna	Alpaca前成员等开源以LLama13B为基础使用ShareGPT指令微调的模型，提出了用GPT4来评测模型效果
OpenChat	80k ShareGPT对话微调LLama-2 13B开源模型中的战斗机
Guanaco	LLama 7B基座，在alpaca52K数据上加入534K多语言指令数据微调
MPT	MosaicML开源的预训练+指令微调的新模型，可商用，支持84k tokens超长输入
RedPajama	RedPajama项目既开源预训练数据后开源3B，7B的预训练+指令微调模型
koala	使用alpaca、HC3等开源指令集+ShareGPT等ChatGPT数据微调llama，在榜单上排名较高
ChatLLaMA	基于RLHF微调了LLaMA
Alpaca	斯坦福开源的使用52k数据在7B的LLaMA上微调得到
Alpaca-lora	LORA微调的LLaMA
Dromedary	IBM self-aligned model with the LLaMA base
ColossalChat	HPC-AI Tech开源的Llama+RLHF微调
MiniGPT4	Vicuna+BLIP2 文本视觉融合
StackLLama	LLama使用Stackexchange数据+SFT+RL
Amazon Titan	亚马逊在aws上增加自家大模型
OPT-IML	Meta复刻GPT3，up to 175B, 不过效果并不及GPT3
Bloom	BigScience出品，规模最大176B
BloomZ	BigScience出品, 基于Bloom微调

附：国内开源模型

模型链接	模型描述
BayLing	中科院开源，性能媲美GPT-3.5，基于LLama7B/13B，增强的语言对齐的英语/中文大语言模型
XWin-LM	一款基于Llama2微调的语言模型,成功在斯坦福AlpacaEval上击败了GPT-4,成为新的榜首模型
XVERSE-256K	最大支持 256K 的上下文窗口长度，约 25w 字的输入内容，可以协助进行文献总结、报告分析等任务
ChatGLM3	智谱AI训练的第三代大型语言模型，它不仅能理解和生成人类语言，还能执行代码、调用工具，并以markdown格式进行响应
ChatGLM	清华开源的、支持中英双语的对话语言模型，使用了代码训练，指令微调和RLHF
Orion-14B-Base	具有140亿参数的多语种大模型，该模型在一个包含2.5万亿token的多样化数据集上进行了训练，涵盖了中文、英语、日语、韩语等多种语言。
Baichuan2	百川第二代也出第二个版本了，提供了7B/13B Base和chat的版本
Baichuan	百川智能开源7B大模型可商用免费
Qwen1-7B+14B+70B	阿里开源，可商用，通义千问7B,14B,70B Base和chat模型
InternLM2 7B+20B	商汤的书生模型2支持200K
DeepSeek	深度求索发布的7B，67B大模型
LLama2-chinese	没等太久中文预训练微调后的llama2它来了~
Chinese-LLaMA-Alpaca	哈工大中文指令微调的LLaMA
Moss	为复旦正名！开源了预训练，指令微调的全部数据和模型。可商用
InternLM	书生浦语在过万亿 token 数据上训练的多语千亿参数基座模型
Aquila2	智源更新Aquila2模型系列包括全新34B
Aquila	智源开源7B大模型可商用免费
UltraLM系列	面壁智能开源UltraLM13B，奖励模型UltraRM，和批评模型UltraCM
PandaLLM	LLAMA2上中文wiki继续预训练+COIG指令微调
Wombat-7B	达摩院开源无需强化学习使用RRHF对齐的语言模型, alpaca基座
TigerBot	虎博开源了7B 180B的模型以及预训练和微调语料
Luotuo-Chinese-LLM	冷子昂@商汤科技, 陈启源@华中师范大学以及李鲁鲁@商汤科技发起的中文大语言模型开源项目，包含了一系列大语言模型、数据、管线和应用
OpenBuddy	Llama 多语言对话微调模型
Chinese Vincuna	LLama 7B基座，使用Belle+Guanaco数据训练
Baize	使用100k self-chat对话数据微调的LLama
BELLE	使用ChatGPT生成数据对开源模型进行中文优化
Chatyuan	chatgpt出来后最早的国内开源对话模型，T5架构是下面PromptCLUE的衍生模型
PromptCLUE	多任务Prompt语言模型
PLUG	阿里达摩院发布超大规模语言模型PLUG，上能写诗词歌赋、下能对答如流
CPM2.0	智源发布CPM2.0

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述