大模型笔记【2】 LLM in Flash

南方铁匠

已于 2024-01-08 16:22:23 修改

阅读量1.8k

点赞数 21

分类专栏：大模型LLM Memory 文章标签： LLM 大模型

于 2024-01-08 16:08:07 首次发布

本文链接：https://blog.csdn.net/hit_shaoqi/article/details/135459875

版权

3 篇文章

订阅专栏

2 篇文章

订阅专栏

Apple发布的新文章介绍了一种名为LLMinaFlash的方法，通过在FlashMemory中有效管理和加载大模型的稀疏参数，尤其是利用FeedForward层的稀疏性和SlidingWindow技术，显著减少了DRAM中的内存需求，提高计算效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Apple最近发表了一篇文章，可以在iphone, MAC 上运行大模型：【LLM in a flash: Efficient Large Language Model Inference with Limited Memory】。

主要解决的问题是在DRAM中无法存放完整的模型和计算，但是Flash Memory可以存放完整的模型。但是Flash带宽较低，LLM in Flash通过尽量减少从Flash中加载参数的数量，优化在DRAM中的内存管理，实现在Flash带宽有限的条件下提高计算速度的目的。

这篇文章很多都是工程上的细节，很少理论。下面是这篇论文的总结，如有不对的地方，欢迎私信。

利用FeedForward 层的稀疏度，只加载FeedForward层输入非0和预测输出非0的参数
通过Window Sliding 只加载增量的参数，复用之前的计算，减少需要加载的参数。
将up-projection的row和down-projection的column放在一起存放，这样在flash中可以一次读取比较大的chunk，提高flash的带宽利用效率。

如下图所示，chunk越大，带宽也就越大，初始加载chunk的latency可以被平摊。