大模型“分区”部署在云和边缘更合适？

「已注销」

于 2024-06-04 13:24:16 发布

阅读量759

点赞数 21

文章标签：人工智能大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_85157201/article/details/139440308

版权

众所周知，大型语言模型（LLMs）需要大量的计算资源。这意味着开发和部署主要集中在强大的集中式系统上，如公共云提供商。然而，尽管许多人认为我们需要大量的GPU和庞大的存储空间来运行生成式AI，但实际上，存在使用分层或分区架构为特定业务用例创造价值的方法。

不知怎的，有一种声音认为，在生成式AI的时代背景下，边缘计算似乎行不通。这是因为生成式AI模型的处理要求以及推动高性能推断的需求。当我提出“边缘知识”架构时，由于这种声音，我常常受到质疑。我们错过了巨大的创新机会，让我们来看看吧。

1.“云+边缘”混合LLM方法可行吗？

这种混合方法使两种基础设施类型的效率最大化。在边缘运行某些操作可以显著降低延迟，这对于需要即时反馈的应用程序至关重要，例如交互式AI服务和实时数据处理。不需要实时响应的任务可以委托给云服务器。

对这些模型进行分区提供了一种平衡计算负载、提高响应速度并增加AI部署效率的方法。该技术涉及在边缘设备、集中式云服务器或本地服务器上运行LLMs（大型语言模型）的不同部分或版本。

通过分区LLMs，我们实现了一种可扩展的架构，其中边缘设备处理轻量级、实时任务，而繁重的计算则卸载到云端。例如，假设我们正在运行分布在世界各地的医疗扫描设备。基于AI的图像处理和分析是这些设备价值的核心；然而，如果我们将巨大的图像发送回某个中央计算平台进行诊断，那将不是最优选择。网络延迟会延迟部分处理，如果网络在某些情况下出现故障（这在许多农村地区可能会发生&#

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。