Llama 3 刚刚在4月18号推出,距 Llama 2 发布正好 9 个月。它已经可以在 Meta 网站上进行聊天,可以从 Huggingface 以 safetensors 或 GGUF 格式下载。
llama 2 与 llama3 比较
1. 模型输出(model output)
llama 2 输出只能是文本(Models generate text only.) ,llama 3既可以输出文本也可以输出代码(generate text and code only.)。 llama3.1 增加了工具调用功能(tool calling)
2. longer context windows.
Llama 3 还将上下文窗口大小从 4k 标记增加到 8k 标记。
llama 3.1 上下窗口大小是148K
3. Tokenizer
Llama 3 的Token 的数量从2T 增加到了15T+。
Llama3.1 的token的数量是15T+
Llama 2 使用 SentencePiece 进行标记化,而 Llama 3 已过渡到 OpenAI 的 Tiktoken。 Llama 3 还引入了 ChatFormat 类、特殊令牌(包括回合结束标记的令牌)和其他功能,以增强对基于聊天的交互和对话处理的支持。
4. 不同nlp的任务上的性能比较
基础预训练模型(Base pretrained models) 比较llama2 vs llama3。
可以看出即使是llama3 8B 预训练模型在一些任务上也比llama2 7B 和13B的模型好很多。
虽然参数只是多了1B.
用命令调整过的模型(Instruction tuned models)比较llama2 vs llama3
llama 3 与llama 3.1 的基础训练模型比较
用命令调整过的模型(Instruction tuned models)比较llama3 vs llama3.1
参考资料
https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/tree/main
https://ai.meta.com/blog/meta-llama-3/
https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models · GitHub