导言
模型的卖点
模型的架构 不是MOE 而是稠密的transformer
上下文 128k窗口
还有
模型训练的两阶段
三个关键点
data 15T token llama3.1
Scale 405B
SFT
RS 拒绝采样
DPO
指标表
MMLU (5-cot)
MMLU (o-shot,Cot)
这里的小细节 可以调看哪个shot比较好, 哪个用Cot比较好
MMLU-Pro新出的指标
IFEval 指令评测
Math评测上
70B和405B 基本上差距不大
有可能评测太老了不能体现出他们的区别
Key capabilities
Tool use
Multi-lingual 多语言
MISTRAL 发布新的MOE的新
架构方面
分词器 由 SentencePiece 换为了 Tiktoken,与 GPT4 保持一致,可以更有效地对语言进行编码
pre-training
4点
怎么找语料
确定scaling law
pre-training data
其实视频也行
PII过滤 就是个人信息
对于数学和代码怎么处理
发现markdown对模型有害
去重
三个方法 URL
文档去重 MinHash 10亿
行级别的去重
n-gram
token-distribution 与其他的算KL散度
用模型来分类器
代码和推理数据
3.1.3
退火数据