Qwen2 技术报告(翻译)
原创 Qwen2 机智流 2024年07月16日 20:16 浙江
原文链接:https://arxiv.org/html/2407.10671v1
💡 TR-DR:
Tokenizer:BBPE, vocab_size=151646
Pretrain:0.5B(12T)、1.5B,7B,72B(7T)、57-A14B(4.5T)
Data mixture:缩放模型上确定数据配比
Long C
原创 Qwen2 机智流 2024年07月16日 20:16 浙江
原文链接:https://arxiv.org/html/2407.10671v1
💡 TR-DR:
Tokenizer:BBPE, vocab_size=151646
Pretrain:0.5B(12T)、1.5B,7B,72B(7T)、57-A14B(4.5T)
Data mixture:缩放模型上确定数据配比
Long C