LLama3技术报告笔记

制作大模型的3个关键:

1. Data: 数量、质量,都有提升;预训练数据量:LLama3是15.6T tokens;LLama2是1.8T tokens;

2. Scale: LLama3是405B参数量,LLama2是70B,相差大约5倍;预训练数据量,相差大约10倍;计算量相差大约50倍(5倍*10倍=50倍),3.8*10^25 FLOPs;

根据Scaling Law,他们得到,Given固定的计算量的前提下(也就是预算钱固定),405B模型这个大小,能获得最强的最终效果;

3. 降低复杂程度:

使用了经典的dense transformer,放弃稀疏MoE,为了让训练更稳定

使用了SFT+RejectionSampling+DPO,放弃强化学习(不稳定,难以scale)

评测:大量自动benchmark+人工评测;LLama3 405B达到目前最优的GPT4水平;8B、70B,在同等参数量的模型里,是最棒的;帮助性、安全性,很好的平衡了;

多模态:image识别,video识别,voice语音理解;

预训练的作用:学习语言结构;学习知识;

8K context-window的pre-training + 更长的(8~128K)post-training

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值