Meta发布MobileLLM：仅350M参数就媲美7B模型？_meta发布移动端350m小模型mobilellm-CSDN博客

本文链接：https://blog.csdn.net/holdcloud/article/details/140610984

Meta发布MobileLLM：仅350M参数就媲美7B模型？

QQ截图20240717143114.png

Meta AI

近日，Meta AI研究团队推出了一项革命性的突破——MobileLLM。这款专为移动设备和其他资源受限环境设计的小型语言模型，以极小的参数量实现了惊人的性能表现。那么MobileLLM的参数与表现究竟如何？我们接着往下看。

QQ截图20240722144811.png

Deep and thin

MobileLLM的研发团队由来自Meta Reality Labs、PyTorch和Meta AI Research（FAIR）的成员组成，他们专注于优化参数量不足10亿的模型。为了在有限的参数量下最大化模型性能，研究人员采用了一系列创新技术。

MobileLLM采用了"深而精简"（deep and thin）的模型架构设计。与普遍观点不同的是，研究发现对于小型LLM而言，模型的深度比宽度更为关键。一个深而窄的模型结构，能够更好地捕捉和表达自然语言中的抽象概念。

MobileLLM引入了多项创新算法，包括SwiGLU激活函数和分组查询注意力（Grouped Query Attention，GQA）机制。这些算法的应用，使得模型能够更高效地利用有限的参数，从而提升整体性能。

研究团队还重新审视了嵌入共享（embedding sharing）方法，并利用即时分块权重共享（immediate block-wise weight sharing）技术，在不增加模型大小的情况下进一步提高了准确率。通过一系列的训练方法优化，MobileLLM的表现再次得到提升。

QQ截图20240722145229.png

性能对比

尽管参数量不足350M，但MobileLLM展现出了令人惊叹的性能。在常见的基准测试任务中，MobileLLM比之前同等规模的模型性能高出2.7%到4.3%。这个看似不起眼的提升，在竞争激烈的语言模型领域却有着重要意义。

更令人印象深刻的是，在某些API调用任务上，仅有3.5亿参数的MobileLLM-350M展现出与拥有70亿参数的LLaMA-2相当的准确性。这意味着，对于特定应用场景，更加紧凑的模型有望以更少的计算资源实现类似的功能。

在聊天和零样本测试等任务中，MobileLLM同样表现出色。125M和350M参数的版本，性能显著优于此前最先进的十亿级别模型，甚至在某些基准上超越了具有10亿参数规模的模型。这再次证明了MobileLLM突破性的架构设计和算法创新所带来的巨大优势。

MobileLLM以创新的架构设计和算法实现，在极其有限的参数量下取得了令人瞩目的性能表现，甚至能在特定任务上媲美拥有超高参数的大型模型。可以说是AI领域一次质的飞越。

厚德云是一款专业的AI算力云平台，为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用，就在厚德云。