全网首发，Meta Llama-3 全方位详解

小马不会过河

于 2024-05-29 20:00:01 发布

阅读量1.2k

点赞数 8

文章标签： llama 人工智能 chatgpt AIGC AI大模型

本文链接：https://blog.csdn.net/m0_59163425/article/details/139304491

版权

Meta 发布了 Llama 3

关于 Llama

Llama 是由 Meta(FaceBook) AI 发布的一个开源项目，允许商用，影响力巨大。之前发布的 Llama 2，支持 4096 上下文，性能卓越，被认为是 GPT 系列最大的竞争对手（之一）。

Llama-3

Meta 发布了 Meta Llama 3 系列语言模型（LLM），具体包括一个 8B 模型和一个70 B模型在测试基准中，Llama 3 模型的表现相当出色，在实用性和安全性评估中，与那些市面上流行的闭源模型不相上下。

第 1 部分

刚刚发布的 Llama-3

中国时间 2024 年 4 月 19 日 0 点 0 分，Meta Llama 3 发布。模型以开源形式提供，包含 8B 和 70B 两种参数规模，涵盖预训练和指令调优的变体。Llama 3 支持多种商业和研究用途，并已在多个行业标准测试中展示了其卓越的性能。

技术信息

Transformer 架构

Meta Llama 3 采用了优化的自回归 Transformer 架构，这种架构专为处理复杂的文本生成任务设计，能够有效提升生成文本的连贯性和相关性。

混合调优

模型结合了监督式微调（SFT）和带人类反馈的强化学习（RLHF），这种混合方法不仅增强了模型的帮助性，也提高了安全性，使得模型在实际应用中更加可靠和符合用户预期。

性能卓越

在多个行业标准基准测试中，特别是在对话类应用中，Meta Llama 3 的表现超过了许多现有的开源聊天模型，显示了其强大的应用潜力，具体后面细说。

数据训练

大的数据

Llama 3 使用了超过 15 万亿令牌的公开在线数据进行预训练，这些数据经过精选，确保模型训练的广泛性和高质量输出。

新的数据

8B 版本数据更新截止至 2023 年 3 月，而 70B 版本则更新至同年 12 月。

30 种语言

虽主要以英语为主，但预训练数据中包含超过 30 种语言的高质量非英语数据

* 大聪明：中文数据不知道用没用「弱智吧」语料

政治正确（雾

碳排放抵消

Meta 承诺通过其可持续性计划抵消预训练过程中产生的所有 CO2 排放（2290 吨 CO2 等效）。

很守规矩

Llama 3 的使用严格遵守法律法规，确保不被用于任何非法活动，同时强调了对知识产权和合规性的重视。

第 2 部分

技术性能

这次的 Llama 在性能上展现了大幅度提升，包括最直接的 8k 上下文（之前是4k），以及可以更好的完成输出任务。

性能测试

基准测试

Meta Llama 3 的 70B 模型在多项基准测试中显示出色的性能，例如在 TriviaQA-Wiki 测试中达到了 89.7% 的准确率，明显优于其他同规模模型。
在内部开发的高质量人类评估集中，该评估集包含了 1,800 个提示，覆盖了 12 个关键用例（包括咨询、编码、创意写作等），Llama 3 在这些实际应用场景中的表现同样卓越。

这里再附一张 Llama 2 和 3 的对比：

现实场景

根据人类评估者的偏好排名，Llama 的 70B 参数模型在实际应用场景中的表现，尤其是在指令跟随方面，相较于其他相当规模的模型表现出了显著的优势。

架构与优化

模型架构

Llama 3 采用了自回归 Transformer 架构，这种结构特别适合于处理复杂的文本生成任务，能有效提升文本的连贯性和相关性。
引入了分组查询注意力（Grouped Query Attention, GQA）技术，这不仅提升了大数据处理的效率，还加快了响应速度。

训练和微调

在预训练阶段，Llama 使用了超过 15 万亿令牌的高质量数据集，包括多种语言的文本，以确保模型具有广泛的适用性和优异的性能。
在微调阶段，通过监督式微调（SFT）和带人类反馈的强化学习（RLHF）的混合方法，Llama 显著降低了错误拒绝率，改善了模型的对齐和响应多样性。

性能提升

Llama 3 在本次更新中，于推理、代码生成和指令跟随等方面有了明显的能力提升。

第 3 部分

在哪能用

作为一个开源 LLM，你可以通过多种方式来使用：直接用别人部署好的产品，找部署好的接口，或者自己部署

中文还是有问题

直接使用（最简单）

Hugging Face

地址在这，进去后直接切模型：https://huggingface.co/chat/

Replicate

8B 模型：hat/https://replicate.com/meta/meta-llama-3-8b

70B 模型：https://replicate.com/meta/meta-llama-3-70b

（刚放上去，只运行了 8 次）

Meta AI

Meta 自己拿 Llama 3 做的，这里访问：https://ai.meta.com/

注意，这个锁地区。

第三方 API

微软 Azure

地址在这：https://azuremarketplace.microsoft.com/en-us/marketplace/apps/metagenai.meta-llama-3-8b-chat-offer?tab=overview

Replicate

他们好卷…Llama 发布1个小时，他们就上线服务了，这俩地址也能走 API

8B 模型：hat/https://replicate.com/meta/meta-llama-3-8b

70B 模型：https://replicate.com/meta/meta-llama-3-70b

自己部署

Meta 项目官网

地址在这：https://llama.meta.com/llama-downloads

Github

项目地址：https://github.com/meta-llama/llama3

第 4 部分

其他

跟随 Llama 3 发布的，还有 Meta AI 系列，包括：一款手机app，一个网站，还有一堆在 Meta FaceBook 全家桶里的插件

APP 能干啥

能当 ChatGPT 用

emmmmm…

网页应用能干啥

还是能当 ChatGPT 用

emmmmm…

插件能干啥

能在全家桶里用

这个看上去很实用！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

小马不会过河

关注

8
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
全网首发，Meta Llama-3 全方位详解

Meta 发布了 Meta Llama 3 系列语言模型（LLM），具体包括一个 8B 模型和一个70 B模型在测试基准中，Llama 3 模型的表现相当出色，在实用性和安全性评估中，与那些市面上流行的闭源模型不相上下。该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。如果你能在15天内完成所有的任务，那你堪称天才。
复制链接

扫一扫