2024 年 8 个顶级开源 LLM（大语言模型）_开源llm

2401_86984662

于 2024-09-03 23:50:02 发布

阅读量641

点赞数 27

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/2401_86984662/article/details/141874731

版权

使用开源 LLM 的好处

选择开源 LLM 而不是专有 LLM 有多种短期和长期好处。下面，您可以找到最令人信服的理由列表：

增强数据安全性和隐私性

使用专有 LLM 的最大问题之一是 LLM 提供商泄露数据或未经授权访问敏感数据的风险。事实上，关于涉嫌将个人和机密数据用于培训目的，已经存在一些争议。

通过使用开源 LLM，公司将全权负责保护个人数据，因为他们将完全控制个人数据。

节省成本，减少对供应商的依赖

大多数专有的 LLM 需要许可证才能使用它们。从长远来看，这可能是一些公司，尤其是中小企业可能无法负担的重要费用。开源 LLM 并非如此，因为它们通常是免费使用的。

但是，需要注意的是，运行 LLM 需要大量资源，即使仅用于推理，这意味着您通常需要为使用云服务或强大的基础设施付费。

代码透明度和语言模型自定义

选择开源 LLM 的公司将可以访问 LLM 的工作原理，包括它们的源代码、架构、训练数据以及训练和推理机制。这种透明度是审查的第一步，也是定制的第一步。

由于每个人都可以访问开源 LLM，包括它们的源代码，因此使用它们的公司可以针对其特定用例对其进行自定义。

积极的社区支持和促进创新

开源运动有望使 LLM 和生成式 AI 技术的使用和访问民主化。允许开发人员检查 LLM 的内部工作是该技术未来发展的关键。通过降低全球编码人员的准入门槛，开源 LLM 可以通过减少偏见、提高准确性和整体性能来促进创新并改进模型。

解决人工智能对环境的影响

随着 LLM 的普及，研究人员和环境监管机构对运行这些技术所需的碳足迹和耗水量提出了担忧。专有的 LLM 很少发布有关培训和运营 LLM 所需资源的信息，也很少发布相关的环境足迹。

通过开源 LLM，研究人员有更多机会了解这些信息，这可以为旨在减少 AI 环境足迹的新改进打开大门。

2024 年 8 个顶级开源大语言模型

1. LLaMA 2

骆驼 2

LLM 领域的大多数顶级参与者都选择闭门造车地建立他们的 LLM。但 Meta 正在采取行动成为一个例外。随着其强大的开源大型语言模型 Meta AI （LLaMA）及其改进版本（LLaMA 2）的发布，Meta 正在向市场发出一个重要信号。

LLaMA 2 于 2023 年 7 月实现用于研究和商业用途，是一个预训练的生成文本模型，具有 7 到 700 亿个参数。它已通过来自人类反馈的强化学习（RLHF）进行了微调。它是一种生成文本模型，可以用作聊天机器人，可以适应各种自然语言生成任务，包括编程任务。Meta 已经推出了 LLaMA 2, Llama Chat, 和 Code Llama的开放定制版本。

2. BLOOM

图片6.png

BLOOM 于 2022 年推出，经过与来自 70+ 个国家的志愿者和 Hugging Face 的研究人员为期一年的合作项目，BLOOM 是一个自回归 LLM，经过训练，可以使用工业规模的计算资源在大量文本数据上从提示中连续文本化。

BLOOM 的发布标志着生成式 AI 民主化的一个重要里程碑。BLOOM 拥有 176 亿个参数，是最强大的开源 LLM 之一，能够以 46 种语言和 13 种编程语言提供连贯准确的文本。

透明度是 BLOOM 的支柱，在这个项目中，每个人都可以访问源代码和训练数据，以便运行、研究和改进它。

BLOOM 可以通过 Hugging Face 生态系统免费使用。

3. BERT

图片5.png

LLM 的底层技术是一种称为 transformer 的神经架构。它是由谷歌开发人员于 2017 年在论文《注意力是你所需要的一切》中提到的。测试 transformers 潜力的首批实验之一是 BERT。

BERT（Bidirectional Encoder Representations from Transformers）于 2018 年由 Google 作为开源 LLM 推出，在许多自然语言处理任务中迅速实现了最先进的性能。

由于其在 LLM 早期的创新功能及其开源性质，Bert 是最受欢迎和使用最广泛的 LLM 之一。例如，在 2020 年，谷歌宣布已通过 70 多种语言的 Google 搜索采用了 Bert。

目前有数以千计的开源、免费和预训练的 Bert 模型可用于特定用例，例如情感分析、临床笔记分析和有害评论检测。

4. Falcon 180B

图片2.png

如果说Falcon 40B 已经给开源 LLM 社区留下了深刻的印象（它在 Hugging Face 的开源大型语言模型排行榜上排名 #1），那么新的 Falcon 180B 表明专有和开源 LLM 之间的差距正在迅速缩小。

Falcon 180B 由阿拉伯技术创新研究所于 2023 年 9 月发布，可以接受 1800 亿个参数和 3.5 万亿个 Token。凭借这种令人印象深刻的计算能力， Falcon 180B 在各种 NLP 任务中已经超过了 LLaMA 3 和 GPT-5.2，而 Hugging Face 表明它可以与谷歌的 PaLM 2 相媲美，后者是为 Google Bard 提供支持的 LLM。

虽然免费用于商业和研究用途，但重要的是要注意 Falcon 180B 需要珍贵的计算资源才能运行。

5. OPT-175B

图片9.png

2022 年发布的 Open Pre-trained Transformers（OPT）语言模型标志着 Meta 通过开源解放 LLM 竞赛战略的又一个重要里程碑。

OPT 包括一套仅解码器的预训练转换器，参数范围从 125M 到 175B。OPT-175B 是市场上最先进的开源 LLM 之一，是 GPT 最强大的兄弟，性能与 GPT-3 相似。预训练模型和源代码都向公众开放。

然而，如果你正在考虑开发一家具有 LLM 的人工智能驱动型公司，你最好考虑另外的模型，因为OPT-175B 是在非商业许可下发布的，只允许将该模型用于研究。

6. XGen-7B

图片8.png

越来越多的公司正在加入LLM竞赛。最后加入擂台的是 Salesforce，该公司于 2023年 7 月推出了 XGen-7B LLM。

根据作者的说法，大多数开源 LLM 专注于提供信息有限的大答案（即几乎没有上下文的简短提示）。XGen-7B 背后的想法是构建一个支持更长上下文窗口的工具。特别是，XGen （XGen-7B-8K-base）的最高级方差允许 8K 上下文窗口，即输入和输出文本的累积大小。

效率是 XGen 的另一个重要优先事项，它只使用 7B 参数进行训练，远低于大多数强大的开源 LLM，如 LLaMA 2 或 Falcon。

尽管体积相对较小，但 XGen 仍然可以提供出色的效果。该模型可用于商业和研究目的，但 XGen-7B-{4K，8K}-inst 变体除外，该变体已在教学数据和 RLHF上进行了训练，并在非商业许可下发布。

7. GPT-NeoX 和 GPT-NeoX

图片1.png

GPT-NeoX 和 GPT-J 由非营利性 AI 研究实验室 EleutherAI 的研究人员开发，是 GPT 的两个很好的开源替代品。

GPT-NeoX 有 20 亿个参数，而 GPT-J 有 6 亿个参数。尽管大多数高级 LLM 可以使用超过 100 亿个参数进行训练，但这两个 LLM 仍然可以提供高精度的结果。

2401_86984662

关注

27
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
2024 年 8 个顶级开源 LLM（大语言模型）_开源llm

选择开源 LLM 的公司将可以访问 LLM 的工作原理，包括它们的源代码、架构、训练数据以及训练和推理机制。这种透明度是审查的第一步，也是定制的第一步。由于每个人都可以访问开源 LLM，包括它们的源代码，因此使用它们的公司可以针对其特定用例对其进行自定义。
复制链接

扫一扫