为什么开源语言大模型很重要？

最新推荐文章于 2024-07-06 16:37:18 发布

Python程序员罗宾

最新推荐文章于 2024-07-06 16:37:18 发布

阅读量737

点赞数 25

文章标签：开源人工智能学习自然语言处理语言模型

本文链接：https://blog.csdn.net/aolan123/article/details/139449805

版权

在LLM领域，开源究竟意味着什么？假设开源社区拥有了真正的开源LLM，其权重、数据集、代码和基础设施都可公开获取，我们又将从中获得哪些重要收益？

本文作者为Vikram Sreekanti和Joseph E. Gonzalez，前者是Aqueduct的联合创始人及CEO，后者是加州大学伯克利分校的教授和Run LLM联合创始人，他们就开源的重要性与核心价值进行了探讨。

（本文由OneFlow编译发布，转载请联系授权。原文：https://generatingconversation.substack.com/p/why-open-source-llms-matter）

开源确实令人着迷。作为拥有悠久开源传统的伯克利大学的一员，我们普遍都是开源软件的忠实拥护者。但坦白来讲，人们关于开源的众多讨论都显得极其模糊。开源的倡导者往往强调开源LLM毋庸置疑的优势，却鲜有说明他们希望看到的具体内容。

这促使我们开始思考开源LLM的重要性，以及它们可能带来的益处。

但首先让我们锚定一个具体的讨论主题，对于LLM来说，究竟什么是开源？以下是几种定义：

公开可用的权重：LLaMa 2和Mistral这样的模型属于这一类别。这些模型基于相当宽松的许可证发布构成模型的权重文件，以便用户能够获取这些模型并进行自定义部署。
公开可用的数据集：据我们所知，目前还没有任何主流的开源LLM这样做，但公开模型数据将会产生重要影响，它将使社区了解模型的潜在偏见和缺陷。
公开可用的训练代码及基础设施：迄今为止，大部分大模型构建者都将这一点严格保密。因为模型训练过程中包含大量的配置参数，再加上人类反馈强化学习（RLHF）的过程，因此公开这类信息有助于社区从基本原理层面理解模型。

正如其他地方所讨论的那样，数据集的创建过程和嵌入在模型训练过程中的专业知识都被严格保密。主流的开源模型供应商很少（或不）发布有关用户数据集的信息，这让开源社区很失望。因此，到目前为止，我们主要见到的是公开可用的模型权重，但关于数据集、训练代码和基础设施的信息却少之又少。

让我们回到最初的问题。假设开源倡导者赢得了这场战役，如果我们拥有真正开源的语言大模型，其权重、数据集以及代码和基础设施都可获取，那么我们将从中获得哪些重要价值？

社区监督: 了解模型的盲点和缺陷对于未来的模型改进和对齐研究至关重要。通过简单地与GPT这样的模型进行聊天交互或使用其API，就已经能够发现很多盲点，研究人员可以通过托管模型来推动边界，用于测试策略。在洞察模型的偏见方面，模型底层数据集的可见性能否提供有价值的见解，这一点仍有待探讨。显然，模型构建者所做的编辑选择（如删除或包含数据）十分重要；然而，鉴于数据使用的大规模投资和潜在的法律风险，我们看到这些数据集完整公开的可能性非常小(除非政府干预)。
重构模型：在缺乏相关数据集和代码信息的情况下，这一点让开源社区感到非常沮丧。理想情况下，社区通过重新创建现有模型可以让研究人员尝试不同的模型参数和对齐方式。但现实情况是，这些模型的规模使得重新创建变得不大可能，甚至完全不可行。仅仅是训练所需的GPU成本就令人望而却步，而RLHF所需的基础设施和人力成本更是难以负担。与普通的存储基础设施不同，用户实际上可以使用Minio来代替AWS S3，但重新创建模型所需的硬件和时间成本使得这一有效的实验变得无法完成。社区所付出的努力不足以重新创建GPT（甚至是LLaMA）规模级别的模型———公共部门或大型研究机构可能会取得一定进展，但自下而上的实验仍然不可能实现。对齐研究很可能必须被视为现有模型的附加内容。
自托管与定制部署：这是一个关注热点，尽管在某些高度敏感的安全场景下，企业可能需要定制的大模型。我们确信OpenAI和Azure（以及相应的AWS + Athropic和GCP）会解决这一问题。由于模型质量存在巨大差距，用户如果可以安全部署私有模型（特别是具备适当的数据共享保护），那么他们选择开源LLM的意愿就会降低。就在本周，我们与一家市值约1000亿美元的科技公司进行了交流，他们正与一家主要的云服务供应商洽谈共享私人信息的条款，用于云服务供应商的LLM部署。现实情况是，主流的模型供应商具备规模经济与高效部署的优势，其他的竞争对手难以超越。
专有化：这在我们之前的文章中提到过，也是最具说服力的观点。开源LLM模型是开发专有化模型的良好基础。虽然GPT微调API功能强大，但它仅能通过LoRA进行微调（而不是完全权重更新），并且限制用户应用更高级的模型专有技术（如RLHF或RLCF），这些技术在专有化模型日益成熟时很可能极具价值。这就是未来几年中开源模型最有可能蓬勃发展的领域。

开源模型在专有化方面已经十分强大。有人指出，Code-LLaMA 34B已经是目前最好的代码模型，对此我们非常赞同！这是领域专用模型的一个绝佳的成功案例。不幸的是，由于训练模型所需的GPU和时间投资，微调可能仍然非常昂贵。幸运的是，我们已经从许多实际案例中得知（包括我们自己的工作中），微调模型不需要达到GPT-4等模型的规模和通用性。

这一思路引出一个显而易见的的结论：开源模型不需要变得更好，只需要变得更小和更专用。此前的文章曾指出，开源LLM需要在成本和规模方面提升大约两个量级，才能赶上GPT。如果它们能够跨越这一障碍，就可以提高企业对模型进行有效专用化的水准，并为开源软件的发展提供一条可行的路径。

我们对开源的价值有着坚定的信念，但结果很明显，开源模型无法与托管的通用模型的质量相抗衡。不过，这并不意味着失败，而是新的机会。做微调模型的用户并不需要最通用的模型，而是需要一个能够为他们的任务进行良好训练的模型。如果开源模型能够在轻量级的同时保持高质量，这就是未来市场的机会所在，将会有一个崭新的专有化领域静候开启。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Python程序员罗宾

关注

25
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
为什么开源语言大模型很重要？

在LLM领域，开源究竟意味着什么？假设开源社区拥有了真正的开源LLM，其权重、数据集、代码和基础设施都可公开获取，我们又将从中获得哪些重要收益？本文作者为Vikram Sreekanti和Joseph E. Gonzalez，前者是Aqueduct的联合创始人及CEO，后者是加州大学伯克利分校的教授和Run LLM联合创始人，他们就开源的重要性与核心价值进行了探讨。（本文由OneFlow编译发布，转载请联系授权。
复制链接

扫一扫