（提问）企业专属大模型私有化的必要性解析

最新推荐文章于 2024-09-14 19:03:31 发布

跟着迪哥一起学AI

最新推荐文章于 2024-09-14 19:03:31 发布

阅读量419

点赞数 10

文章标签：计算机视觉人工智能程序人生 agi 深度学习

本文链接：https://blog.csdn.net/hdbdhdbh/article/details/142250518

版权

前言

在《终结者》这部电影中，主角们的团结合作和集体智慧战胜了“反派”技术上的优势。凯尔·里斯（Kyle Reese）和莎拉·康纳（Sarah Connor）利用智慧打败了先进的 T-800，而 T-800 又帮助莎拉和约翰战胜了更加先进的 T-1000。OpenAI的GPT-4目前是公开可用的最强语言模型，此外，有分析表明，一般情况下GPT-4的运行成本比私有化部署的同类大模型更低。不过我认为，尽管 OpenAI 的模型有很多优点，但还是值得考虑私有化部署大模型，尤其是需要构建商业产品或内部应用时。
在这里插入图片描述

如果仅为了满足用户的某些需求，而在应用程序中使用语言模型，可以使用OpenAI或Anthropic等公司的API，向 API 提交 prompt，然后获取响应，并支付相应的使用费用。或者，我们也可以配置私有化模型，并将其托管在本地或云端中，目前市面上有许多模型可供私有化部署。最近有几项分析指出[1][2]，如果只考虑成本和性能，使用OpenAI API的优势更为明显。可以进行非常详细的成本计算，调用API最明显的成本优势是，我们只需要在使用时支付硬件使用费用。大多数私有化部署的大模型应用程序都很难充分利用部署的 GPU 算力资源，因此需要为闲置时间支付大量费用。

对于语言模型的性能评估，存在许多复杂的因素需要考虑——我个人认为，市面上的各种基准测试和“排行榜” [3] ，与在具体商业相关任务中的表现之间并不存在 1:1 的关系。但毫无疑问，在多种自然语言处理任务中，GPT-4 的表现都明显优于其他大模型，只有最好的公开可用的模型（publicly available models）才能与Claude（Anthropic的大模型）和GPT-3.5 竞争。

尽管使用OpenAI等公司的API有其优点，但使用公开可用的模型（publicly available models）也有其优势。（这里需要注意，我并没有使用“开源”这个词，因为许多模型存在一些使用限制，不能被视为完全“开源”[4]。但我不会在这里深入探讨这个问题。）对我而言，这个问题的关键在于“你与大模型之间的关系（relationship）”。使用API意味着你只是OpenAI等公司提供的服务的使用者。模型的特性、自定义功能、价值观（包括审查机制和世界观）等都由这些公司决定，你只能构建前端页面调用这些服务。这也意味着你无法了解模型的内部状态，因此在应用更高级别的问责技术和防护措施时（译者注：这些技术和措施可能包括应用模型的可解释性、模型监控、数据隐私保护等等）会受到限制。这些问题都可能是有益的，因为你不必担心如何处理这些问题。但这也意味着你构建的任何应用都完全依赖于这些初创公司。

对于“基于开发者与AI模型之间的互动和依赖关系”的开发，使用私有化部署的模型有很多好处。对模型架构和权重的控制，一定程度上消除了未来可能面临的不确定性，也意味着你不必接受OpenAI等公司提供的服务。市场上已经形成了一个丰富的生态系统，有多种不同模型可供尝试，还可以根据自己的要求进行微调。这种结构最终能够让开发者与AI模型建立一种长期的关系，并围绕它调整产品，让构建的产品与选择的模型保持一致，并影响我们何时以及是否决定进行更改的决策。这让你构建的东西不仅仅是别人语言模型的前端，而是深度集成的。

此外，对于许多大模型应用而言，GPT的多方位优势并非推动产生价值的主要因素。运行像GPT-4这样大的模型可能每月需要花费数万美元。但在笔记本电脑上就可以运行7B和13B的模型（具有70亿和130亿个参数的模型，是LLaMA和其他公共模型的常见规格）。这些模型也足够大，可以胜任许多常见任务，并且作为用户本地计算机或服务器的一部分，可以更具性价比。
在这里插入图片描述

“负责任地使用AI”这句话有多种含义。科技公司通常关注的是表面问题，如政治正确和避免偏见，这比较有效地避免了像ChatGPT这些具备多种能力的公共模型引发争议。对于许多应用，尤其是专业的知识工作型应用[5]，这些顾虑大多无关紧要，取而代之的是关于事实准确性、完整性或仅仅是能否紧扣主题等这些实际问题。许多“保持模型稳定”的技术需要了解模型的内部状态、梯度和中间输出结果。 [6]（译者注：梯度（gradients）是机器学习中非常重要的概念，是优化模型的关键。）使用基于API的模型，会限制进一步进行实验和增强模型的可能性。

对于缓存内部模型状态以及模型微调等各种模型优化措施也是如此。虽然API提供了一些功能选择，但与现有的可用技术相比，这些选择仍然是有限的。大模型技术仍在不断发展，每天都有新的模型和技术问世。对于那些将 LLM 作为产品或工具的一个紧密集成部分的用户来说，要想灵活地随着技术的发展而发展，唯一的方法是拥有私有化部署的大模型。

目前，语言模型变化速度如此之快的另一个原因是，与大模型技术相关的技能和知识也在迅速发展。使用私有化部署的大模型，可以让机构和个人在这种不断变化的市场环境中积累经验，而单单使用 API 则无法做到这一点。对于许多公司，特别是那些正在构建商业应用的公司来说，将“AI”保持在更深层次的技术水平上，对于员工的专业发展层次和适应变化能力的提升都非常重要。这不是一项成熟的技术，而我们从业者所拥有的"护城河"的一部分就是了解正在发生的事情。甚至可以进一步说，任何使用AI构建重要应用的组织或公司，都应该在内部或通过顾问获得一些关于AI技术的深层次知识，而不仅仅是API的参考资料，以便能够更好地去理解AI最擅长的能力。随着人工智能被商品化和大肆炒作，它能做什么与其建议用途之间往往会出现很大的脱节。

我预计在未来几年，情况将会大不相同——人们将会就使用大模型的关键事项达成共识，而API将会支持这些共识。对于一项新的、仍处于实验阶段且快速发展的技术，要真正参与其中，需要深入了解模型和代码。这并不意味着所有公司或产品都需要深入了解大模型技术——有些公司或产品可以通过使用API来构建有价值的产品，这种情况下去私有化部署可能是浪费时间的。但这些是不同类型的产品，不可混为一谈。

回到《终结者》所描述的故事，里斯和T-800建立起了牢固的“关系”（译者注：与前文描述开发者和大模型的“关系”相呼应），从而成功完成了任务。而接受天网任务的终结者们只是四处施展他们高超的技术实力，这并不足以赢得胜利。人和智能体建立“关系”的一部分就是获取他们的权限。我知道这是个“愚蠢”的比喻，但我相信这些模型也是如此，关键在于能否深入了解工具的优势，并构建一个高度集成的应用，而这是API所无法实现的。

在译者与原文作者接触时，原文作者又补充了一点“为什么要私有化部署大模型”的理由，详见下文：

Another advantage of self-hosting that I didn’t mention in the post is to be able to have better control over performance in different languages, so I belive this is a good option for people using LLMs in languages other than English.

私有化部署大模型的另一个优点：可以通过微调等方式，使其更好地适应不同语言的特点和要求，从而提升大模型的性能。因此我认为对于使用LLM的非英文用户来说，使用私有化部署的大模型是一个不错的选择。这一点我在文章中没有提到，可以在译文中指出。

大模型资源分享

针对所有自学遇到困难的同学，我为大家系统梳理了大模型学习的脉络，并且分享这份LLM大模型资料：其中包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等。😝有需要的小伙伴，可以扫描下方二维码免费领取↓↓↓

在这里插入图片描述

一、全套 AGI 大模型学习路线

AI 大模型时代的精彩学习之旅：从根基铸就到前沿探索，牢牢掌握人工智能核心技能！

在这里插入图片描述

二、640 套 AI 大模型报告合集

此套涵盖 640 份报告的精彩合集，全面涉及 AI 大模型的理论研究、技术实现以及行业应用等诸多方面。无论你是科研工作者、工程师，还是对 AI 大模型满怀热忱的爱好者，这套报告合集都将为你呈上宝贵的信息与深刻的启示。

在这里插入图片描述

三、AI 大模型经典 PDF 书籍

伴随人工智能技术的迅猛发展，AI 大模型已然成为当今科技领域的一大热点。这些大型预训练模型，诸如 GPT-3、BERT、XLNet 等，凭借其强大的语言理解与生成能力，正在重塑我们对人工智能的认知。而以下这些 PDF 书籍无疑是极为出色的学习资源。
在这里插入图片描述

阶段 1：AI 大模型时代的基础认知

目标：深入洞悉 AI 大模型的基本概念、发展历程以及核心原理。
内容

：
- L1.1 人工智能概述与大模型起源探寻。
- L1.2 大模型与通用人工智能的紧密关联。
- L1.3 GPT 模型的辉煌发展历程。
- L1.4 模型工程解析。
- L1.4.1 知识大模型阐释。
- L1.4.2 生产大模型剖析。
- L1.4.3 模型工程方法论阐述。
- L1.4.4 模型工程实践展示。
- L1.5 GPT 应用案例分享。

阶段 2：AI 大模型 API 应用开发工程

目标：熟练掌握 AI 大模型 API 的运用与开发，以及相关编程技能。
内容
：
- L2.1 API 接口详解。
- L2.1.1 OpenAI API 接口解读。
- L2.1.2 Python 接口接入指南。
- L2.1.3 BOT 工具类框架介绍。
- L2.1.4 代码示例呈现。
- L2.2 Prompt 框架阐释。
- L2.2.1 何为 Prompt。
- L2.2.2 Prompt 框架应用现状分析。
- L2.2.3 基于 GPTAS 的 Prompt 框架剖析。
- L2.2.4 Prompt 框架与 Thought 的关联探讨。
- L2.2.5 Prompt 框架与提示词的深入解读。
- L2.3 流水线工程阐述。
- L2.3.1 流水线工程的概念解析。
- L2.3.2 流水线工程的优势展现。
- L2.3.3 流水线工程的应用场景探索。
- L2.4 总结与展望。

阶段 3：AI 大模型应用架构实践

目标：深刻理解 AI 大模型的应用架构，并能够实现私有化部署。
内容
：
- L3.1 Agent 模型框架解读。
- L3.1.1 Agent 模型框架的设计理念阐述。
- L3.1.2 Agent 模型框架的核心组件剖析。
- L3.1.3 Agent 模型框架的实现细节展示。
- L3.2 MetaGPT 详解。
- L3.2.1 MetaGPT 的基本概念阐释。
- L3.2.2 MetaGPT 的工作原理剖析。
- L3.2.3 MetaGPT 的应用场景探讨。
- L3.3 ChatGLM 解析。
- L3.3.1 ChatGLM 的特色呈现。
- L3.3.2 ChatGLM 的开发环境介绍。
- L3.3.3 ChatGLM 的使用示例展示。
- L3.4 LLAMA 阐释。
- L3.4.1 LLAMA 的特点剖析。
- L3.4.2 LLAMA 的开发环境说明。
- L3.4.3 LLAMA 的使用示例呈现。
- L3.5 其他大模型介绍。