端侧大模型综述On-Device Language Models: A Comprehensive Review

本文链接：https://blog.csdn.net/m0_58988991/article/details/147309383

此为机器翻译，仅做个人学习使用

(2024-09-14) On-Device Language Models: A Comprehensive Review (设备端语言模型：全面回顾)


作者: Jiajun Xu; Zhiyuan Li; Wei Chen; Qun Wang; Xin Gao; Qi Cai; Ziyuan Ling;
期刊: （发表日期: 2024-09-14）
期刊分区:
本地链接: Xu 等 - 2024 - On-Device Language Models A Comprehensive Review.pdf
DOI: 10.48550/arXiv.2409.00088
摘要: The advent of large language models (LLMs) revolutionized natural language processing applications, and running LLMs on edge devices has become increasingly attractive for reasons including reduced latency, data localization, and personalized user experiences. This comprehensive review examines the challenges of deploying computationally expensive LLMs on resource-constrained devices and explores innovative solutions across multiple domains. The paper investigates the development of on-device language models, their efficient architectures, including parameter sharing and modular designs, as well as state-of-the-art compression techniques like quantization, pruning, and knowledge distillation. Hardware acceleration strategies and collaborative edge-cloud deployment approaches are analyzed, highlighting the intricate balance between performance and resource utilization. Case studies of on-device language models from major mobile manufacturers demonstrate real-world applications and potential benefits. The review also addresses critical aspects such as adaptive learning, multi-modal capabilities, and personalization. By identifying key research directions and open challenges, this paper provides a roadmap for future advancements in on-device language models, emphasizing the need for interdisciplinary efforts to realize the full potential of ubiquitous, intelligent computing while ensuring responsible and ethical deployment. For a comprehensive review of research work and educational resources on on-device large language models (LLMs), please visit https://github.com/NexaAI/Awesome-LLMs-on-device. To download and run on-device LLMs, visit https://www.nexaai.com/models.

1 摘要

大型语言模型（LLM）的出现彻底改变了自然语言处理应用程序，由于减少延迟、数据本地化和个性化用户体验等原因，在边缘设备上运行 LLM 变得越来越有吸引力。本综述探讨了在资源受限的设备上部署计算成本高昂的 LLM 所面临的挑战，并探讨了跨多个领域的创新解决方案。本文研究了设备端语言模型的开发、其高效架构（包括参数共享和模块化设计）以及最先进的压缩技术，如量化、修剪和知识蒸馏。分析了硬件加速策略和协作边缘云部署方法，突出了性能和资源利用率之间的复杂平衡。来自主要移动制造商的设备端语言模型的案例研究展示了实际应用和潜在优势。该审查还涉及自适应学习、多模式功能和个性化等关键方面。通过确定关键研究方向和开放挑战，本文为设备语言模型的未来发展提供了路线图，强调了跨学科努力的必要性，以实现无处不在的智能计算的全部潜力，同时确保负责任和合乎道德的部署。有关设备端大型语言模型（LLM）的研究工作和教育资源的全面回顾，请访问 https://github.com/NexaAI/Awesome-LLMs-On-Device。要下载和运行设备端的 LLM，请访问 https://www.nexaai.com/models。

2 引言

大型语言模型（LLM）的出现催化了自然语言处理（NLP）应用程序的变革性转变。通过利用 transformer 架构（Vaswani et al.， 2017），OpenAI 的 GPT 系列等 LLM（Radford et al.， 2019;Brown et al.， 2020;Achiam等人，2023 年）和 Meta 的 LLaMA 系列（Touvron等人，2023a;b;Meta，2024 年;Dubey et al.， 2024）在理解和生成类似人类的文本方面表现出无与伦比的熟练程度，对从自动化客户支持到高级内容创建等领域产生了深远的影响。这些模型无缝执行各种NLP任务的能力使它们成为现代人工智能驱动应用程序的支柱(Wu et al., 2023b; Ge et al., 2024; Nam et al., 2024; Zheng et al., 2024a; Yang et al., 2024b).

但是，主要在云服务器上部署 LLM 的传统部署存在一些挑战，尤其是在延迟、安全性和持续 Internet 连接的需求方面。这些担忧推动了人们对在边缘设备上部署 LLM 的兴趣日益浓厚，这一转变有望缩短响应时间，并直接在智能手机、汽车系统和个人可穿戴设备等用户设备上提供个性化的用户体验。这种范式转变不仅符合用户对即时和个性化帮助日益增长的需求，而且还降低了与云计算相关的带宽和能源成本。
![[Pasted image 20250416191411.png]]

对设备端 AI 部署的兴趣日益浓厚，这反映在快速扩张的边缘 AI 市场中。如图 1 所示，从 2022 年到 2032 年，边缘 AI 市场将在各个领域出现大幅增长。市场规模预计将从 2022 年的 152 亿美元增加到 2032 年的 1436 亿美元，十年内增长近 10 倍（Market.us，2024 年）。这种增长跨越多个行业，其中制造业、汽车和政府部门做出了重大贡献。预计的市场扩张突显了对边缘 AI 解决方案（包括设备端语言模型）的需求不断增长，这是由于各种应用程序对更快、更私密和高效的 AI 功能的需求所推动的。这一市场趋势与向更本地化的 AI 处理的技术推动相一致，进一步强调了开发高效的设备端 LLM 解决方案的重要性。

尽管具有引人注目的优势，但在边缘设备的约束下集成计算密集型语言模型会带来重大挑战。主要障碍包括计算能力有限、内存容量减少和能源限制，这些因素共同使直接采用基于云的 LLM 架构变得复杂。例如，在智能手机上执行最先进的4050亿个参数模型（Dubey et al., 2024）在模型性能和能源效率方面没有实质性的妥协是不可实现的。
![[Pasted image 20250416191518.png]]

本综述全面探讨了在边缘设备上部署 LLM 的当前策略和进展。我们的目标是批判性地分析为使 LLM 适应边缘计算的约束而开发的各种技术和架构。这包括对模型压缩技术、节能计算策略和新型轻量级模型架构开发的详细研究。此外，本文将深入探讨在边缘场景中有效使用 LLM 的部署策略，重点介绍关键的行业应用和由此产生的好处。通过这篇评论，我们打算阐明从基于云的语言模型过渡到设备端语言模型的途径和挑战，为这种转变如何重新定义应用程序和 AI 可访问性的前景提供见解。该论文的结构如图 2 所示。我们首先探讨了第 2 节的基础和初步内容，包括 LLM 在设备上的演变、架构基础和设备端训练技术。第 3 节深入探讨了设备端语言模型的高效架构，讨论了创新的设计原则、模型压缩和协作方法。第 4 节继续深入研究模型压缩和优化技术，包括量化、修剪、知识蒸馏和低秩分解。第 5 节研究了硬件加速和部署策略，重点介绍了流行的设备端 LLM 框架和特定于硬件的优化。为了将这些进步置于上下文中，在第 6 节中，我们展示了现有的设备端语言模型及其在各个领域的实际应用的示例。最后，第 7 节讨论了该领域的未来方向和公开挑战，第 8 节总结了我们的回顾。通过关注 LLM 能力和边缘计算需求的交叉点，本文为 AI 研究中正在进行的讨论做出了贡献，为在资源受限的环境中实现模型性能和计算效率之间的微妙平衡提供了全面的视角。

3 基础和预备

3.1 设备端 LLM 的演变

设备端 LLM 的演变是一个与技术进步密切相关的过程。图 3 提供了自 2023 年以来设备端语言模型开发的全面时间表，说明了该领域的快速发展。如图所示，对边缘大型语言模型的探索和实验于 2023 年正式开始。我们看到了几个参数低于 10B 的有影响力的模型系列的出现，使 LLM 可以在边缘设备上运行。值得注意的例子包括：
![[Pasted image 20250416191916.png]]

此外，还有 TII 发布的 Falcon（Almazrouei et al.， 2023）和 Mosaic ML 发布的 MPT 模型（MosaicML，2023）等模型都参与了此类模型的竞争。尽管这些小参数模型的性能不如传统的大参数模型，但它们使 LLM 可以在边缘设备上运行。它们的出现标志着语言模型行业对使用 LLM 的边缘设备应用场景的重要性。同时，随着混合专家、量化和压缩等技术的应用，小参数模型的性能在保持参数体积的同时不断取得长足进步。

![[Pasted image 20250416192012.png]]

图 3 还强调了自 2023 年以来多模态模型的出现，例如 LLaVa 系列（Liu et al.， 2024a;b）、QwenVL（Bai等人，2023b）、Gemini Nano（团队等人，2023 年）和 Yi VL（Young等人，2024 年）。这些模型代表了在边缘部署多模式 LLM 的宝贵尝试，以适应移动设备上更复杂和不断变化的用户场景。

进入 2024 年，创新步伐加快，从图最右侧密集的新车型集群中可以明显看出。这一时期引入了：

![[Pasted image 20250416192052.png]]

图 3 清楚地表明，2024 年人们更加关注多模态功能，许多新模型同时提供文本和多模态功能，以应对不同的任务处理场景。正如模型的多样性和发展所表明的那样，设备上的语言模型正在迅速发展和多样化。这一趋势，加上智能硬件和软件技术的不断成熟，使这些模型能够集成到智能手机、联网汽车、计算机、机器人和其他终端设备中，展示其不断增长的应用潜力和价值。

3.2 LLM 架构基础

传统的基于文本的 LLM： 让我们从一切开始的地方开始。Transformer 是一种基于注意力机制的深度学习模型（Vaswani et al.， 2017），广泛用于处理顺序数据，尤其是在自然语言处理任务中。它由两部分组成：编码器和解码器。如今，流行的大型语言模型主要使用纯解码器架构（Fu et al.， 2023），代表GPT（Generative Pre-trained Transformer）、LLaMA（Large Language Model Meta AI）等模型。GPT 模型由多个解码器层组成（Radford等人，2018 年;2019 年;Brown et al.， 2020），每个解码器层都由一个自我注意机制组成。GPT模型还在每个子层之后应用层归一化（Floridi & Chiriatti，2020）。相比之下，LLaMA 应用了归一化（Ioffe & Szegedy，2015 年;Zhang & Sennrich， 2019;Xiong et al.， 2020），这有助于提高训练过程的稳定性（Touvron et al.， 2023a）。在注意力机制的应用方面，GPT 模型使用标准的自注意力机制，允许模型在生成序列时考虑来自输入序列中所有位置的信息，而 LLaMA 使用组查询注意力（GQA）（Ainslie et al.， 2023），这是一种优化技术，可以减少模型的计算和内存占用并提高效率。
MoE （Mix of Expert）概念起源于 1991 年（Jacobs et al.， 1991），在当今的语言模型预训练中起着关键作用。它支持高效的预训练，使用比密集模型所需的计算资源少得多的计算资源。该机制由两个关键组件组成：一个包含许多“专家”的稀疏 MoE 层，每个专家本身就是一个独立的神经网络（Shazeer et al.， 2017;Chen et al.， 2022;Du et al.， 2022）;以及门控网络或路由：该组件用于确定将哪些 tokens 发送到哪个 Expert Model 进行处理。架构用MoE层替换了传统Transformer模型中的每个前馈网络（FFN）层，MoE层由两个核心组件组成：一个门控网络和一些专家（Masoudnia & Ebrahimpour，2014）。
多模态 LLM： 借助 Transformer 强大的学习架构，大型多模态模型可以同时处理多种不同的模态，例如文本、图像、声音、数据表等（Xie et al.， 2024;Wu et al.， 2023aÿ