众所周知,大型语言模型(LLMs)需要大量的计算资源。这意味着开发和部署主要集中在强大的集中式系统上,如公共云提供商。然而,尽管许多人认为我们需要大量的GPU和庞大的存储空间来运行生成式AI,但实际上,存在使用分层或分区架构为特定业务用例创造价值的方法。
不知怎的,有一种声音认为,在生成式AI的时代背景下,边缘计算似乎行不通。这是因为生成式AI模型的处理要求以及推动高性能推断的需求。当我提出“边缘知识”架构时,由于这种声音,我常常受到质疑。我们错过了巨大的创新机会,让我们来看看吧。
1.“云+边缘”混合LLM方法可行吗?
这种混合方法使两种基础设施类型的效率最大化。在边缘运行某些操作可以显著降低延迟,这对于需要即时反馈的应用程序至关重要,例如交互式AI服务和实时数据处理。不需要实时响应的任务可以委托给云服务器。
对这些模型进行分区提供了一种平衡计算负载、提高响应速度并增加AI部署效率的方法。该技术涉及在边缘设备、集中式云服务器或本地服务器上运行LLMs(大型语言模型)的不同部分或版本。
通过分区LLMs,我们实现了一种可扩展的架构,其中边缘设备处理轻量级、实时任务,而繁重的计算则卸载到云端。例如,假设我们正在运行分布在世界各地的医疗扫描设备。基于AI的图像处理和分析是这些设备价值的核心;然而,如果我们将巨大的图像发送回某个中央计算平台进行诊断,那将不是最优选择。网络延迟会延迟部分处理,如果网络在某些情况下出现故障(这在许多农村地区可能会发生&#