Meta如约发布Llama3.1 405B模型

最新推荐文章于 2024-10-08 14:58:59 发布

魔卡AI

最新推荐文章于 2024-10-08 14:58:59 发布

阅读量468

点赞数 9

文章标签： llama 语言模型

本文链接：https://blog.csdn.net/Ai_Xiaofei/article/details/140822387

版权

Meta上周如约正式发布了Llama3.1 版本模型，与泄露的内容一致包含8B、 70B、 405B 三个型号。

提供了更好的推理能力、更大的128K token上下文窗口，并改进了对8种语言的支持等其他改进。

405B可以在多项任务上可以与领先的闭源模型竞争。还更新了许可证，允许开发者用Llama模型的输出,包括405B来改进其他模型。

405B对Meta确实很重要，以至于小扎还发布了-一个对应的声明来介绍Meta的开源优势。

他认为开源人工智能(如Llama 3.1)是未来发展的正确道路，它能够促进AI技术的更广泛的应用和创新，同时也有助于Meta保持技术领先地位和商业模式的可持续性。

Llama 3.1 405B的第三方评估结果也都出来了:

SEAL和Allen AI的ZeroEval两个独立评估机构给出了自己的结果，405B 确实。

SEAL上405B指令遵循第一、代码第四、数学第二。ZeroEval 测试它整体性能介于Sonnet 3.5和GPT4o之间。

同时从技术报告论文来看，Llama 使用了非常多的合成数据来帮助训练模型:

●代码的监督微调(SFT for Code) : 405B 模型采用了3种合成数据方法来提升自身的代码能力，包括代码执行反馈、编程语言翻译和文档反向翻译。

●数学的监督微调(SFT for Math) :使佣了多种方法包括从数学背景中获取相关的预训练数据，并将其转换为问答格式，以用于监督微调;使用Llama 3来生成一-组提示的逐步解决方案; 训练结果和逐步奖励模型，以过滤其中间推理步骤错误的训练数据;提示Lama 3通过结合文本推理和相关的Python代码来解决推理问题;为了模拟人类反馈，我们利用不正确的生成进行训练，并进一步通过提示L lama 3来消除这些错误。

●多语言能力的监督微调(SFT for Multilinguality) : "为了收集更高质量的非英语语言人工标注，我们从预训练过程中分出一个分支,继续在由90%多语言标记(tokens)组成的数据混合集上进行预训练,以此来培养一个多语言专家模型。 "

●长文本处理能力的监督微调(SFT for Long Context) :主要依靠合成数据来解决超长上下文训练的需求。长上下文预训练使用了8000亿(B) 个Token, 分为6个阶段，并洧-个退火阶段。**使用早期版本的Llama 3来生成基于关键长文本处理场景的合成数据，包括多轮问答、长文档摘要和代码库推理。"

●工具使用能力的监督微调(SFT for Tool Use) :针对Brave Search、Wolfram Alpha和Python解释器(一个特殊的新ipython角色)进行了训练，以实现单一-、嵌套、并行和多轮函数调用的能力。

●基于人类反馈的强化学习(RLHF) :大量使用了基于Llama 2生成结果的直接偏好优化(DPO)数据。