Meta如约发布Llama3.1 405B模型

Meta上周如约正式发布了Llama3.1 版本模型,与泄露的内容一致包含8B、 70B、 405B 三个型号。

提供了更好的推理能力、更大的128K token上下文窗口,并改进了对8种语言的支持等其他改进。

405B可以在多项任务上可以与领先的闭源模型竞争。还更新了许可证,允许开发者用Llama模型的输出,包括405B来改进其他模型。

405B对Meta确实很重要,以至于小扎还发布了-一个对应的声明来介绍Meta的开源优势。

他认为开源人工智能(如Llama 3.1)是未来发展的正确道路,它能够促进AI技术的更广泛的应用和创新,同时也有助于Meta保持技术领先地位和商业模式的可持续性。

Llama 3.1 405B的第三方评估结果也都出来了:

SEAL和Allen AI的ZeroEval两个独立评估机构给出了自己的结果,405B 确实。

SEAL上405B指令遵循第一、代码第四、 数学第二。ZeroEval 测试它整体性能介于Sonnet 3.5和GPT4o之间。

同时从技术报告论文来看,Llama 使用了非常多的合成数据来帮助训练模型:

●代码的监督微调(SFT for Code) : 405B 模型采用了3种合成数据方法来提升自身的代码能力,包括代码执行反馈、编程语言翻译和文档反向翻译。

●数学的监督微调(SFT for Math) :使佣了多种方法包括从数学背景中获取相关的预训练数据,并将其转换为问答格式,以用于监督微调;使用Llama 3来生成一-组提示的逐步解决方案; 训练结果和逐步奖励模型,以过滤其中间推理步骤错误的训练数据;提示Lama 3通过结合文本推理和相关的Python代码来解决推理问题;为了模拟人类反馈,我们利用不正确的生成进行训练,并进一步通过 提示L lama 3来消除这些错误。

●多语言能力的监督微调(SFT for Multilinguality) : "为了收集更高质量的非英语语言人工标注,我们从预训练过程中分出一个分支,继续在由90%多语言标记(tokens)组成的数据混合集上进行预训练,以此来培养一个多语言专家模型。 "

●长文本处理能力的监督微调(SFT for Long Context) :主要依靠合成数据来解决超长上下文训练的需求。长上下文预训练使用了8000亿(B) 个Token, 分为6个阶段,并洧-个退火阶段。**使用早期版本的Llama 3来生成基于关键长文本处理场景的合成数据,包括多轮问答、长文档摘要和代码库推理。"

●工具使用能力的监督微调(SFT for Tool Use) :针对Brave Search、Wolfram Alpha和Python解释器(一个特殊的新ipython角色)进行了训练,以实现单一-、嵌套、并行和多轮函数调用的能力。

●基于人类反馈的强化学习(RLHF) :大量使用了基于Llama 2生成结果的直接偏好优化(DPO)数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值