为什么企业需要私有化专属大模型

编者按:8月29日凌晨,OpenAI在官网宣布,推出企业版ChatGPT(ChatGPT Enterprise)。前不久,OpenAI又刚刚发布了针对企业的GPT-3.5 Turbo微调功能。因而引发了一场热烈的讨论——是否仍需要私有化的大模型?

我们今天为大家带来的文章,作者探讨了与仅通过 OpenAI 等公司的 API 使用 LLM 相比,私有化部署大模型的优势。有力地说明了私有化的大模型仍然是我们理想的一种选择。

作者认为,私有化大模型的核心优势和必要性在于:1) 能够更好地控制LLM的特征和行为; 2)能够实现更深入的模型集成,以及根据自身需求进行模型优化和调整; 3) 能够在快速变化的环境中积累技术经验,构建壁垒。

总的来说,作者认为私有化部署LLM能让公司与LLM建立更紧密的关系,从而取得更大的主动权。本文值得对大模型应用感兴趣的公司和个人开发者研读。

以下是译文,Enjoy!

在《终结者》这部电影中,主角们的团结合作和集体智慧战胜了“反派”技术上的优势。凯尔·里斯(Kyle Reese)和莎拉·康纳(Sarah Connor)利用智慧打败了先进的 T-800,而 T-800 又帮助莎拉和约翰战胜了更加先进的 T-1000。OpenAI的GPT-4目前是公开可用的最强语言模型,此外,有分析表明,一般情况下GPT-4的运行成本比私有化部署的同类大模型更低。不过我认为,尽管 OpenAI 的模型有很多优点,但还是值得考虑私有化部署大模型,尤其是需要构建商业产品或内部应用时。

如果仅为了满足用户的某些需求,而在应用程序中使用语言模型,可以使用OpenAI或Anthropic等公司的API,向 API 提交 prompt,然后获取响应,并支付相应的使用费用。或者,我们也可以配置私有化模型,并将其托管在本地或云端中,目前市面上有许多模型可供私有化部署。最近有几项分析指出[1][2],如果只考虑成本和性能,使用OpenAI API的优势更为明显。可以进行非常详细的成本计算,调用API最明显的成本优势是,我们只需要在使用时支付硬件使用费用。大多数私有化部署的大模型应用程序都很难充分利用部署的 GPU 算力资源,因此需要为闲置时间支付大量费用。

对于语言模型的性能评估,存在许多复杂的因素需要考虑——我个人认为,市面上的各种基准测试和“排行榜” [3] ,与在具体商业相关任务中的表现之间并不存在 1:1 的关系。 但毫无疑问,在多种自然语言处理任务中,GPT-4 的表现都明显优于其他大模型,只有最好的公开可用的模型(publicly available models)才能与Claude(Anthropic的大模型)和GPT-3.5 竞争。

尽管使用OpenAI等公司的API有其优点,但使用公开可用的模型(publicly available models)也有其优势。(这里需要注意,我并没有使用“开源”这个词,因为许多模型存在一些使用限制,不能被视为完全“开源”[4]。但我不会在这里深入探讨这个问题。)对我而言,这个问题的关键在于“你与大模型之间的关系(relationship)”。 使用API意味着你只是OpenAI等公司提供的服务的使用者。模型的特性、自定义功能、价值观(包括审查机制和世界观)等都由这些公司决定,你只能构建前端页面调用这些服务。这也意味着你无法了解模型的内部状态,因此在应用更高级别的问责技术和防护措施时(译者注:这些技术和措施可能包括应用模型的可解释性、模型监控、数据隐私保护等等)会受到限制。这些问题都可能是有益的,因为你不必担心如何处理这些问题。但这也意味着你构建的任何应用都完全依赖于这些初创公司。

对于“基于开发者与AI模型之间的互动和依赖关系”的开发,使用私有化部署的模型有很多好处。 对模型架构和权重的控制,一定程度上消除了未来可能面临的不确定性,也意味着你不必接受OpenAI等公司提供的服务。市场上已经形成了一个丰富的生态系统,有多种不同模型可供尝试,还可以根据自己的要求进行微调。这种结构最终能够让开发者与AI模型建立一种长期的关系,并围绕它调整产品,让构建的产品与选择的模型保持一致,并影响我们何时以及是否决定进行更改的决策。这让你构建的东西不仅仅是别人语言模型的前端,而是深度集成的。

此外,对于许多大模型应用而言,GPT的多方位优势并非推动产生价值的主要因素。运行像GPT-4这样大的模型可能每月需要花费数万美元。但在笔记本电脑上就可以运行7B和13B的模型(具有70亿和130亿个参数的模型,是LLaMA和其他公共模型的常见规格)。这些模型也足够大,可以胜任许多常见任务,并且作为用户本地计算机或服务器的一部分,可以更具性价比。

“负责任地使用AI”这句话有多种含义。科技公司通常关注的是表面问题,如政治正确和避免偏见,这比较有效地避免了像ChatGPT这些具备多种能力的公共模型引发争议。对于许多应用,尤其是专业的知识工作型应用[5],这些顾虑大多无关紧要,取而代之的是关于事实准确性、完整性或仅仅是能否紧扣主题等这些实际问题。许多“保持模型稳定”的技术需要了解模型的内部状态、梯度和中间输出结果。 [6](译者注:梯度(gradients)是机器学习中非常重要的概念,是优化模型的关键。)使用基于API的模型,会限制进一步进行实验和增强模型的可能性。

对于缓存内部模型状态以及模型微调等各种模型优化措施也是如此。虽然API提供了一些功能选择,但与现有的可用技术相比,这些选择仍然是有限的。大模型技术仍在不断发展,每天都有新的模型和技术问世。对于那些将 LLM 作为产品或工具的一个紧密集成部分的用户来说,要想灵活地随着技术的发展而发展,唯一的方法是拥有私有化部署的大模型。

目前,语言模型变化速度如此之快的另一个原因是,与大模型技术相关的技能和知识也在迅速发展。使用私有化部署的大模型,可以让机构和个人在这种不断变化的市场环境中积累经验,而单单使用 API 则无法做到这一点。 对于许多公司,特别是那些正在构建商业应用的公司来说,将“AI”保持在更深层次的技术水平上,对于员工的专业发展层次和适应变化能力的提升都非常重要。这不是一项成熟的技术,而我们从业者所拥有的"护城河"的一部分就是了解正在发生的事情。甚至可以进一步说,任何使用AI构建重要应用的组织或公司,都应该在内部或通过顾问获得一些关于AI技术的深层次知识,而不仅仅是API的参考资料,以便能够更好地去理解AI最擅长的能力。随着人工智能被商品化和大肆炒作,它能做什么与其建议用途之间往往会出现很大的脱节。

我预计在未来几年,情况将会大不相同——人们将会就使用大模型的关键事项达成共识,而API将会支持这些共识。对于一项新的、仍处于实验阶段且快速发展的技术,要真正参与其中,需要深入了解模型和代码。这并不意味着所有公司或产品都需要深入了解大模型技术——有些公司或产品可以通过使用API来构建有价值的产品,这种情况下去私有化部署可能是浪费时间的。但这些是不同类型的产品,不可混为一谈。

回到《终结者》所描述的故事,里斯和T-800建立起了牢固的“关系”(译者注:与前文描述开发者和大模型的“关系”相呼应),从而成功完成了任务。而接受天网任务的终结者们只是四处施展他们高超的技术实力,这并不足以赢得胜利。人和智能体建立“关系”的一部分就是获取他们的权限。我知道这是个“愚蠢”的比喻,但我相信这些模型也是如此,关键在于能否深入了解工具的优势,并构建一个高度集成的应用,而这是API所无法实现的。

在译者与原文作者接触时,原文作者又补充了一点“为什么要私有化部署大模型”的理由,详见下文:

Another advantage of self-hosting that I didn’t mention in the post is to be able to have better control over performance in different languages, so I belive this is a good option for people using LLMs in languages other than English.

私有化部署大模型的另一个优点:可以通过微调等方式,使其更好地适应不同语言的特点和要求,从而提升大模型的性能。因此我认为对于使用LLM的非英文用户来说,使用私有化部署的大模型是一个不错的选择。这一点我在文章中没有提到,可以在译文中指出。

END

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值