Meta发布MobileLLM:仅350M参数就媲美7B模型?
前言
Meta AI
近日,Meta AI研究团队推出了一项革命性的突破——MobileLLM。这款专为移动设备和其他资源受限环境设计的小型语言模型,以极小的参数量实现了惊人的性能表现。那么MobileLLM的参数与表现究竟如何?我们接着往下看。
技术突破
Deep and thin
MobileLLM的研发团队由来自Meta Reality Labs、PyTorch和Meta AI Research(FAIR)的成员组成,他们专注于优化参数量不足10亿的模型。为了在有限的参数量下最大化模型性能,研究人员采用了一系列创新技术。
MobileLLM采用了"深而精简"(deep and thin)的模型架构设计。与普遍观点不同的是,研究发现对于小型LLM而言,模型的深度比宽度更为关键。一个深而窄的模型结构,能够更好地捕捉和表达自然语言中的抽象概念。
MobileLLM引入了多项创新算法,包括SwiGLU激活函数和分组查询注意力(Grouped Query Attention,GQA)机制。这些算法的应用,使得模型能够更高效地利用有限的参数,从而提升整体性能。
研究团队还重新审视了嵌入共享(embedding sharing)方法,并利用即时分块权重共享(immediate block-wise weight sharing)技术,在不增加模型大小的情况下进一步提高了准确率。通过一系列的训练方法优化,MobileLLM的表现再次得到提升。
性能表现
性能对比
尽管参数量不足350M,但MobileLLM展现出了令人惊叹的性能。在常见的基准测试任务中,MobileLLM比之前同等规模的模型性能高出2.7%到4.3%。这个看似不起眼的提升,在竞争激烈的语言模型领域却有着重要意义。
更令人印象深刻的是,在某些API调用任务上,仅有3.5亿参数的MobileLLM-350M展现出与拥有70亿参数的LLaMA-2相当的准确性。这意味着,对于特定应用场景,更加紧凑的模型有望以更少的计算资源实现类似的功能。
在聊天和零样本测试等任务中,MobileLLM同样表现出色。125M和350M参数的版本,性能显著优于此前最先进的十亿级别模型,甚至在某些基准上超越了具有10亿参数规模的模型。这再次证明了MobileLLM突破性的架构设计和算法创新所带来的巨大优势。
总结
MobileLLM以创新的架构设计和算法实现,在极其有限的参数量下取得了令人瞩目的性能表现,甚至能在特定任务上媲美拥有超高参数的大型模型。可以说是AI领域一次质的飞越。
厚德云是一款专业的AI算力云平台,为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。