开源大模型 Llama 3

科学的N次方

已于 2024-04-21 11:12:41 修改

阅读量1.2k

点赞数 32

分类专栏： AIGC 文章标签： llama

于 2024-04-19 21:56:38 首次发布

本文链接：https://blog.csdn.net/chenshijie2011/article/details/137978628

版权

AIGC 专栏收录该内容

18 篇文章 1 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

开源大模型Llama 3是一个在多个领域都展现出卓越性能的大模型。下面将为您介绍Llama 3的特性和一些简单的使用案例。

一、Llama 3介绍

Llama 3在Meta自制的两个24K GPU集群上进行预训练，使用了超过15T的公开数据，其中5%为非英文数据，涵盖30多种语言。这个训练数据集是前代Llama 2使用的数据量的七倍，包括的代码数量是Llama 2的四倍。Llama 3提供了8B和70B的预训练和指令微调版本，支持广泛的应用。

在架构层面，Llama 3选择了标准的仅解码（decoder-only）式Transformer架构，并采用了包含128K token词汇表的分词器。这种架构和分词器的选择有助于模型在处理文本时更加准确和高效。

在性能上，Llama 3在广泛的行业基准测试中达到了SOTA，并提供了新的功能，如改进的推理能力。后期训练程序的改进大大降低了Llama 3的错误拒绝率，提高了对齐度，并增加了模型响应的多样性。这使得Llama 3的可操控性更强，能够更好地满足各种应用场景的需求。

与Gemma 7B、Mistral 7B Instruct、Gemini Pro 1.5和Claude 3等先进模型相比，Llama 3在多项标准测试基准上有着更好的表现。在Meta公布的AI基准测试中，Llama 3 70B的表现甚至超越了谷歌的Gemini Pro1.5以及Anthropic的Claude 3 Sonnet。此外，Llama 3 4000亿参数版本模型在多语言推理任务和代码能力方面，可与GPT-4、Claude 3相匹敌。

二、案例

1、信用评分：通过Llama 3模型对客户的历史交

了解本专栏

超级会员免费看

科学的N次方

关注

32
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
2
评论
开源大模型 Llama 3

Llama 3在Meta自制的两个24K GPU集群上进行预训练，使用了超过15T的公开数据，其中5%为非英文数据，涵盖30多种语言。这个训练数据集是前代Llama 2使用的数据量的七倍，包括的代码数量是Llama 2的四倍。Llama 3提供了8B和70B的预训练和指令微调版本，支持广泛的应用。在架构层面，Llama 3选择了标准的仅解码（decoder-only）式Transformer架构，并采用了包含128K token词汇表的分词器。这种架构和分词器的选择有助于模型在处理文本时更加准确和高效。
复制链接

扫一扫