Llama3-8B为什么这么强？

最新推荐文章于 2024-08-30 21:14:07 发布

老油杂谈

最新推荐文章于 2024-08-30 21:14:07 发布

阅读量1.1k

点赞数 24

文章标签： AIGC

本文链接：https://blog.csdn.net/BigBlue92/article/details/138269249

版权

尽管上周Llama 3的发布不甚高调，但其表现相当惊艳。短短的数日之间，Llama3-70B已经爬升到了Lmsys Leaderboard的第6名，与数个T级别的大模型并驾齐驱。

而更令人惊讶的是Llama3-8B，一个只有8B参数的“轻量级”大模型，也已经攀升到榜单的第14位，超越了GPT-3.5-Turbo、Mistral-Next和Qwen1.5-32B等一系列主流商业或开源大模型（图1）：

图1: Llama3-8B在Leaderboard上位列前茅

所以，排行榜之外，Llama3-8B在实际业务中到底有多强？

“小强” Llama3-8B

结合业务实践，我们的测评设计如下：1）分类任务（基础和高级），用于“路由”机制、用户请求和响应分类；2）决策任务（动态决策树构建和追问体系），用于基于语义切割文档和建立追问体系；3）In-context Learning（Few-shot），无需调优的情况下掌握新的技能；4）推荐任务，建立结合上下文的推荐机制。测评结果如下（图2）：

图2: 测评结果

总而言之，Llama3-8B表现出了“跨越阶级”的能力：

首先，其在各项任务中远超上一代同类模型Llama2-7B；
其次，其也显著超越了所有同量级大模型，例如Gemma-7B；
最后，其表现基本上与百亿级大模型持平，例如Mixtral 8X7B。

这也就意味Llama3-8B可以轻松“平趟”同量级大模型市场，并且在百亿级大模型市场一战。对我们的应用而言，Llama3-8B是足以替代GPT-3.5-Turbo的“小强”般的存在。

从Meta提供的报告来看，相较于Llama2，Llama3在技术架构上并未进行颠覆性的调整，但Llama3-8B为何这么强？

而其背后可能的原因是：超配的FLOPs规模。

超配的FLOPs规模

Andrej Karpathy 认为，如果只能用一个数字来描述大模型的“强度”，那么结合参数规模和训练时长的FLOPs规模将是一个理想的指标。

而根据Scaling Law，我们可以使用公式 FLOPs = 6*D*N （其中D代表数据规模、N代表参数规模）来推测大模型的FLOPs规模。Llama3-8B的数据规模达到了15T，那么其FLOPs规模至少为：

FLOPs = 6 * 15T * 8B = 7.2E23

对于8B参数的Llama3-8B而言，7.2E23这个数字绝对是“超配”了，其FLOPs规模不仅仅超越了所有的7B大模型，例如Gemma-7B和Mistral 7B，也超越诸多百亿级别大模型，例如Yi-34B、Reka-Flash和Mistral 8X7B（图3，如红色竖线所示）:

图3: Llama3-8B在FLOPs规模上超越了众多百亿级大模型

如果在上述坐标系中增加Leaderboard排名，我们会发现超配的FLOPs规模也带来了更强的大模型（图4），正如我们的测试结果所示，Llama3-8B是“跨越阶级”般的存在：

图4: Llama3-8B的Leadboard排名14，不仅仅甩掉了所有同级别的大模型，更是超越了Mistral 8X7B（31位）和Yi-34B（29位）

Llama3-8B的表现也部分颠覆了DeepMind的Chinchilla-optimal理论。在该理论中，参数和数据的黄金比例为1 ：20～25，而更高比例的数据规模有可能造成“Diminishing Returns”。直到最近，众多主流大模型和超大模型依然遵从这个比例，例如Claude3 Opus和Gemini 1.5 Pro的比例是1:20，而Grok-1.5的比例是1:19。而Llama已经将这个指标推至1:1875（图5）：