llama3.1 论文

导言

模型的卖点

模型的架构 不是MOE 而是稠密的transformer

上下文 128k窗口

还有

模型训练的两阶段

三个关键点

data 15T token  llama3.1

Scale 405B

SFT 

RS 拒绝采样

DPO

指标表

MMLU (5-cot)

MMLU (o-shot,Cot)

这里的小细节 可以调看哪个shot比较好, 哪个用Cot比较好

MMLU-Pro新出的指标

IFEval 指令评测

Math评测上

70B和405B 基本上差距不大

有可能评测太老了不能体现出他们的区别

Key capabilities 

Tool use

Multi-lingual 多语言

MISTRAL 发布新的MOE的新

架构方面

分词器 由 SentencePiece 换为了 Tiktoken,与 GPT4 保持一致,可以更有效地对语言进行编码

pre-training

4点

怎么找语料

确定scaling law

pre-training data

其实视频也行

PII过滤 就是个人信息

对于数学和代码怎么处理  

发现markdown对模型有害

去重

三个方法 URL

文档去重 MinHash 10亿

行级别的去重 

n-gram

token-distribution 与其他的算KL散度

用模型来分类器

代码和推理数据

3.1.3

退火数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值