王牌站士Ⅰ--闪存中的LLM

介绍

近年来,大型语言模型 (LLM) 已成为人工智能领域研究和开发的热门领域。GPT-3 等模型已经展示了生成类似人类的文本并进行令人惊讶的令人信服的对话的能力。然而,这些先进的功能伴随着巨大的计算成本。GPT-4、LlaMA-2、PaLM-2、Claude-2 等 LLM 需要数十亿个参数和数千亿次浮点运算才能运行。存储和运行这些庞大的模型需要巨大的计算资源。

如今,大多数 LLM 都在数据中心昂贵的 GPU 或 TPU 硬件上运行,以获得足够的速度。但人们对更广泛地部署强大的语言模型的兴趣日益浓厚——在消费设备、物联网网络边缘以及智能手机和 AR/VR 耳机等空间受限的环境中。这推动了对更高效的存储和运行 LLM 方法的研究。

一种有前途的方法是使用闪存而不是 RAM。闪存提供更高的存储密度,允许将更大的模型直接嵌入到设备中。但是,闪存比 RAM 慢得多,并且写入耐久性有限。这为模型架构、缓存策略和推理算法带来了新的复杂性,以使这种组合既实用又高效。

在这篇博文中,我深入探讨了在闪存中存储和运行大型语言模型的原理和最新进展。文章内容包括:

  • LLM 高内存要求的背景
  • 闪存在密集存储方面优于 RAM
  • 闪存系统带来的技术障碍
  • 硬件进步提高了基于闪存的 LLM 的可行性
  • 算法创新优化闪存模型服务
  • 基于闪存的大语言模型 (LLM) 的研究现状
  • 随着技术的成熟,预期能力将不断进步
  • 未来本地大语言模型项目将有广阔的发展空间

最后,你应该清楚地了解为什么要追求闪存上的 LLM,所涉及的不同技术挑战,以及利用这种组合的设备如何很快解锁更先进的设备智能。

大语言模型的记忆预算飙升

仅在过去几年中,LLM 的规模就以惊人的速度增长。当 OpenAI 于 2020 年发布初始 GPT-3 模型时,它被认为是该模型规模的一个里程碑。GPT-3 包含 1750 亿个参数,需要数百 GB 的内存。

具体来说,这个数字比 BERT 大 1,000 多倍,BERT 是两年前推出的开创性 LLM。BERT 最多有 3.4 亿个参数,在当时被认为是非常大的。但是,虽然 BERT 可以在单个 GPU 服务器上进行训练和运行,但 GPT-3 需要全新的计算规模。开发该模型需要数千个 GPU 和数百亿次计算操作。

这种指数级增长的洪流既反映了人们对语言 AI ​​功能更复杂和更复杂的渴望,也反映了爆炸式增长的数据集和计算能力所带来的原始力量。OpenAI 本身并没有满足于 GPT-3 的成就——不到两年后,它就推出了拥有 2800 亿个参数的 GPT-3.5。行业专家完全相信,未来几年,越来越大的模型将继续涌现。

当然,所有这些额外的参数都直接转化为对内存容量的更大需求。仅存储 GPT-3 的训练权重就需要超过 350 GB。对于 GPT-3.5,这个数字接近 1 TB。有传言称,OpenAI 的下一次迭代可能会达到 1 万亿个参数——这可能需要 10 TB 或更多的内存!

其他不断突破规模界限的 LLM 包括 Nvidia 的 Megatron Turing NLG 530B、华为的 Wu Dao 2.0 和 AI21 Labs 的 Jurassic-1 Jumbo 等模型,所有这些模型的参数数量都在 2000-5000 亿之间。在追求生成文本的质量、范围和连贯性方面的优势时,语言模型构建者似乎不会在追求更大规模的道路上停滞不前。

RAM 的限制和闪存的前景

但简单的数学运算清楚地表明,仅从设备内部的 RAM 来操作这些庞大的 LLM 是完全不切实际的。没有智能手机、VR 耳机或边缘设备可以包含数百 GB 的 DRAM 或 SRAM。即使是服务器级 DIMM 的最大容量也只有 1-2 TB — 并且成本高达数万美元。

因此,如今几乎所有大型模型的实际应用都依赖于在给定时间内只在 RAM 中暂存模型的一小部分。硬盘驱动器 (HDD) 或固态驱动器 (SSD) 等大容量存储设备保存了大部分模型权重和激活。负载平衡方案会在发出推理请求时根据需要将模型的子集交换到 RAM 中。

然而,这种传输过程需要耗费大量的时间和能源。HDD 价格低廉,但与 RAM 相比速度非常慢。SSD 可以改善延迟,但大容量的资金成本会大幅增加。这两种选择都无法与直接内存的访问速度相提并论。

一种新兴的替代方案是使用闪存。闪存在密度和性能之间实现了独特的平衡,有望将比以前想象的更大的神经网络模型嵌入到设备中。

与 SSD 一样,闪存是一种由硅片而非磁性 HDD 盘片构成的固态存储器。它利用量子物理而非机械运动进行读写,从而具有显著的速度优势。但闪存还采用了不同的存储架构,省去了众多移动组件,存储密度远高于 SRAM 或 DRAM 等易失性存储器技术。

例如,英特尔的旗舰产品 Optane SSD DC P5800X 可容纳高达 6.4TB 的存储空间,同时达到 7.7 GB/s 左右的峰值传输速率。令人印象深刻的规格。但从密度来看,如果配置为纯存储设备而不是针对 SSD 级性能进行优化,相同的物理闪存可以支持超过 50TB。并且从闪存顺序读取的传输速率仍然可以达到 1 GB/s 的倍数——比 HDD 快得多。

这种密度和速度的结合使闪存成为一种有趣的容器,用于容纳比仅使用 RAM 更大的 LLM。与仅维护驻留在内存中的小段不同,甚至数万亿个参数模型中的更多参数模型可以直接包含在设备中。将模型的更大份额靠近处理器可以减少对缓慢存储寻道时间的依赖。闪存也在继续快速发展——即将出现的四级单元 (QLC) 技术有望实现更高的密度芯片,与目前使用的普通三级单元 (TLC) 闪存相比,密度提高了四倍。

在闪存上运行 LLM 的挑战

当然,LLM 是利用先进神经网络架构的高度复杂的软件。简单地将模型参数转储到闪存存储桶而不是 RAM 中并不能立即将该方法转化为功能系统。与传统内存相比,尝试直接从闪存操作模型时会出现许多计算差异。研究人员才刚刚开始研究在这些条件下协调高性能推理的工具和技术。

一个核心挑战是闪存和 RAM 技术在访问模式支持和接口功能方面存在固有差异。动态 RAM 提供细粒度的随机访问,针对机器学习中使用的模型架构进行了高度优化。后台控制器逻辑处理普通但必要的操作,例如在巨大的内存空间中进行刷新周期,而无需软件感知。

与此同时,闪存采用了更复杂的架构,由围绕单元内电荷放置和保留的内部物理动力学控制。读写不能以任何顺序自由地跨闪存页面进行。相反,操作需要编排到块中,并在写入事件之间进行擦除周期。不同闪存类型对高级访问功能的支持也有所不同,例如直接从存储执行代码或通过 DMA 直接访问硬件。

这些差异需要仔细重新考虑以下关键功能:

  • 模型分区和调度——模型可能需要根据擦除块进行仔细的分段,而不是依赖于细粒度的需求分页。
  • 激活缓存策略——缓存有助于克服延迟差距,但缓存管理逻辑需要更好地了解闪存访问模式。
  • 主机<->存储传输协议——模型执行编排需要减轻延迟、带宽、内存语义(如块大小和寻址)的差异。
  • 代码放置——功能可能需要划分闪存中剩余的部分和拉入 RAM 的部分。
  • 内存层次结构——多级存储子系统需要根据不同的相对较快/较慢的层进行优化。

通过新型专用硬件加速研究进展

值得庆幸的是,算法和硬件方面都在快速创新,以帮助大型语言模型顺利过渡到闪存存储基板。在硬件方面,西部数据和 SK 海力士等大型半导体公司对闪存上大型推荐模型的独特计算特性很感兴趣。

他们推出了专用的 SSD 设计,并进行了以下关键改进:

  • 集成近数据处理以实现 ML 加速
  • 通过专用 AI 缓存架构增加内部内存缓冲区
  • 改进的计算并行性和闪存排序器可防止 I/O 瓶颈
  • 针对高吞吐量随机读取进行了优化的高级命令队列
  • 多通道闪存连接,提高有效带宽

同样,像 Syntiant 这样的初创公司正在将更新的神经网络 IP 核推向市场,这些 IP 核可以通过内部闪存映射执行,从而减轻对外部 RAM 需求的压力。

这些功能建立在固有闪存优势之上,例如内部并行性,它通过同时从多个芯片访问更宽的指令字来隐藏延迟。闪存系统内的板载 SRAM 缓存提供了比外部 DRAM 限制更大的临时工作空间,但与纯 SRAM 设计相比成本更低。

优化闪存语言模型的算法创新

随着硬件功能的日趋成熟,研究人员也在软件方面积极创新,以简化从闪存提供海量语言模型的过程。

目前正在进行大量探索,涉及以下策略:

  • 战略模型结构划分 — 正在开发的技术可以引导层和其他结构的最佳细分,以匹配推理过程中的内部闪存并行动态。这扩展了过滤器修剪等概念,以最大限度地减少内部移动的权重。
  • 改进的内存分配 - 不再依赖标准堆内存分配,而是采用专门的算法来设计与闪存可用性紧密结合的内存访问,以防止出现瓶颈。
  • 多级流水线——LP 模型的流水线可以适应利用新闪存 SSD 架构中的缓存层次结构、防止停顿并简化流入主机处理器的流程。
  • 交叉执行——小心地将主机 CPU 执行与存储设备计算(例如命令准备、块擦除和单元编程)重叠,进一步掩盖固有的闪存延迟。
  • 优化缓存——新的缓存策略构建了 AI 模型感知逻辑,以利用内在的数据访问局部性并有意管理激活流以最大限度地提高缓存重用率。

编译器、数据库和高性能计算等跨学科的创新都被连接在一起,使得 LLM 能够在闪存环境(而非传统 RAM)内运行时保留其复杂的功能。

闪存领域的大语言模型现状

研究表明,将 LLM 适配到闪存上并采用更简单的神经网络架构作为探索者的做法取得了可喜的进展。加州大学河滨分校展示了 LSTM 模型,该模型可直接从商用 SSD 执行分类任务。虽然在 CIFAR-10 等数据集上表现良好,但这些初始演示仍然受到模型大小的限制,参数只有数百万个。

这一障碍正稳步向高级 NLP 任务所需的规模推进。三星研究人员详细介绍了仅从 PCIe 4.0 企业级 SSD 运行多达 1.25 亿个参数的 BERT 风格模型的成功案例。虽然低于商业规模,但这一数字更接近迁移学习的极限。运行 TPU 配置,他们实现了每秒超过 3,500 个句子嵌入。

最近,计算存储初创公司 FADU Technology 公开展示了一个 15 亿参数的 NLP 模型,该模型在其专为 AI 加速而设计的专用闪存硬件系统中实时运行。他们的定制闪存模块在语言任务上每秒可实现超过 12,000 个 token 预测 — 与基于 RAM 的执行结果相媲美。

这些数据点表明,与从闪存高效运行的全尺寸 LLM 之间的差距正在迅速缩小。随着模型复杂性呈指数级并行增长,该技术似乎恰逢其时,可以解锁支持语言智能所需的全新内存前沿,直至本世纪末。

广泛部署的设备 LLM 的未来

纵观这一发展轨迹,随着时间的推移,闪存技术显然有潜力极大地扩大 LLM 在广大消费者和边缘设备上的部署范围。随着解决方案模式的成熟,我们可以预期拥有数千亿个参数的 LLC 将为以下平台的应用和界面提供服务:

  • 智能手机——完整的语音助手、预测消息、视频/照片标记和搜索以及实时翻译,全部来自本地存储的模型。
  • 笔记本电脑——增强的创造力套件、在庞大的本地语料库中进行更智能的搜索、超越当今限制的复杂视觉文档理解。
  • AR/VR 界面——更详细的场景分析支持实时渲染、真实的人机交互的物理模拟以及模拟的化身对话。
  • 自动驾驶汽车——改进语音命令接受能力,向人类乘客解释操作决策,并分析微妙的大声对话。
  • 医疗保健工具——患者症状/病史理解和澄清问题、智能医学图像洞察和个性化护理计划生成。
  • 财务咨询服务——定制报告、个性化财富/税务规划以及民主化获取高净值咨询水平的渠道。

这极大地提高了几乎所有商业和消费领域终端设备上可计算体验的复杂程度。密集智能模型将不再仅仅局限于遥远的数据中心。高响应能力的 LLM 受存储和延迟(而非纯粹的处理吞吐量)限制,将成为直接嵌入手机、汽车、家庭助理、商业工具和医疗系统的标准元素。

这些体验背后的原始计算能力无需连接到云端,除非独特的用户数据具有价值。随着强大的学习能力离开中央服务器,直接定位到需要的位置,隐私、安全性、可靠性、速度和成本都呈现积极趋势。就像消费者应用程序和游戏如今可以在本地保存大量资产(如图像、视频和丰富的元数据)一样,大量的精选模型权重库也将很快出现在手边。

闪存技术(采用高密度硅结构而非机械硬盘)似乎将成为引领下一次平台革命的基础要素。短短几年内,我们就将为丰富的神经网络解锁足够的本地存储容量,使其渗透到几乎所有硬件产品中,在这些产品中,语言或多媒体的复杂推理都具有优势。包括处理速度继续按照摩尔定律不断攀升,等待存储容量的匹配来满足其尚未开发的潜力。

这为嵌入式智能的更广泛扩散轨迹奠定了基础,类似于之前的 PC 和移动设备革命。随着本地设备智能的蓬勃发展,最先进的人工智能功能将不再局限于超大规模数据中心。我们正在快速推进 AGI 的集成,即通过人类情境而不是原始数据模式来理解、预测和与世界互动。得益于深度学习生态系统中不懈的硬件、算法和商业创新,一个令人兴奋的前沿不断打开。

创作不易,觉得不错的话,点个赞吧!!!

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值