千呼万唤始出来,Meta凌晨开源Llama3

Meta于北京时间4月19日凌晨开源了Llama-3,距Llama-2开源正好9个月。一起看看这次Meta到底放了什么干货。

8B性能小钢炮,70B比肩Gemini和Claude

Llama-3开源了80亿参数和700亿参数两个尺寸,同步开源了基座和对话模型。值得一提的是,Llama-3的对话模型在性能上表现十分优异,大幅改善了Llama-2的指令跟随和拒答的问题。

除了客观性能,对话模型在主观评测上的胜率相比Claude Sonnet, Mistral Medium和GPT-3.5也具有显著优势。

Meta官方本次也提供了HuggingFace格式的模型,但目前仍需填写申请获取下载链接。同时模型也将在多个云计算平台上线,包括AWS, Databricks, Google Cloud, IBM WatsonX, Microsoft Azure等。

训练数据翻了7倍多,15T Token带来超强性能

据官方介绍,LLaMA-3在预训练阶段使用超过了15T的Token,而前代模型仅使用了2T的token.

根据官方信息,Llama-3在模型架构上继承前代整体结构,将上下文长度从4K增加到了8K,继续使用Grouped-query Attention(GQA)技术来提升模型的推理效率。在具体性能评测中,Llama-3基座模型和对话模型相比前代模型和社区其他开源模型,都表现出超强的性能优势,在学科能力、推理能力、知识能力、理解能力等多个能力维度的评测集上均获得了不同程度性能提升。

 同时Meta也报告了模型训练消耗的GPU卡时以及对应的能源消耗和碳排放。

提出System-level Safety,持续推进负责任AI

Llama-3持续在负责任AI上开展探索,在提示词、模型和输出多个层面开展安全相关的探索,引入了包括Llama Guard 2, Code Shield, 和 CyberSec Eval 2等多项技术来持续提升模型安全性。

类ChatGPT服务 Meta AI现已上线

此次发布除了开源模型以外,Meta更是一口气发布了Meta AI,提供聊天对话、图片生成等多种能力,直接使用Facebook账号即可登录体验。

下一步是什么?4千亿参数版本已经在路上

除了8B和70B,Meta也预告了正在进行训练的400B版本,目前性能已经十分强劲,在大模型常用的部分评测集指标上已经接近或超过GPT-4。不仅如此,在未来几个月里,Meta还将会发布包括多模态,长文本等更多能力的新模型。

OpenCompass团队目前也正在对Llama-3的各项能力进行全面评估,我们将会第一时间为社区提供更全面深入的性能分析,敬请期待。

  • 20
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值