简介:
本文旨在解决移动设备上对高效大型语言模型(LLM)日益增长的需求,这种需求是由不断增加的云成本和延迟问题驱动的。我们专注于设计参数少于10亿的高品质LLM,这是移动部署的实用选择。与强调数据和参数数量在决定模型质量中的关键作用的普遍观点相反,我们的研究强调了模型架构对于十亿以下规模LLM的重要性。利用深度和精简架构,加上嵌入式共享和分组查询关注机制,我们建立了一个名为MobileLLM的强大基线网络,与之前的1.25亿/3.5亿最先进模型相比,其准确性提高了2.7%/4.3%。此外,我们提出了一种即时的分块权重共享方法,该方法不会增加模型大小,并且只有少量延迟开销。最终模型被命名为MobileLLM-LS,与MobileLLM 125M/350M相比,精度进一步提高了0.7%/0.8%。
此外,与之前的subbillion模型相比,MobileLLM模型系列在聊天基准测试中表现出了显著的改进,并在API调用任务中表现出了与LLaMA-v2 7B接近的正确性,突出了小型模型在常见设备用例中的能力。
运行成本:
此外,对便携性和计算成本的考虑推动了在智能手机和移动设备上部署LLM的必要性。在当前的移动技术环境中,由于主存储器(DRAM)容量来源的限制,将llama v2 7B等LLM与8位权重集成在一起的成本非常昂贵。DRAM容量从iPhone 15的6 GB到谷歌Pixel 8 Pro的12 GB不等(移动应用程序不应超过DRAM的10%,因为DRAM是与操作系统和其他应用程序共享的。这推动了十亿以下参数LLM的部署。此外,将LLM能耗因素考虑在内(模型参数为每十亿分之0.1j/token)一个7b参数LLM每令牌消耗0.7 J。一部充满电的iPhone大约有50kJ的能量,以每秒10个令牌的速度通话不到2小时,每64个令牌消耗0.2%的电池电量。
这些需求集中在一个单一的必要条件上:为设备上的执行采用紧凑的模型。通过利用亚十亿模型,例如消耗仅0.035 J/token的350M 8位模型,iPhone可以支持一整天的对话使用。此外,解码速度可以显著提高,如125M模型的基准测试结果所示,该模型能够以每秒50个令牌的速度运行,相比之下,最先进的iPhone应用程序MLC Chat利用LLaMA 7B模型以每秒36个令牌的速度运行。