Llama 3.2开源中小型视觉 LLM（11B 和 90B）和轻量级纯文本模型（1B 和 3B）

最新推荐文章于 2024-09-26 15:53:51 发布

努力的光头强

最新推荐文章于 2024-09-26 15:53:51 发布

阅读量517

点赞数 14

文章标签： llama 开源数据挖掘人工智能产品经理语言模型自然语言处理

本文链接：https://blog.csdn.net/2401_85373898/article/details/142555901

版权

目录

要点

1前言

2认识 LLAMA 3.2

3模型评估

4视觉模型

5轻量级模型

6LLAMA栈分布

7系统级安全

8立即试用 LLAMA 3.2

要点

1.今天，Meta发布了 Llama 3.2，其中包括适用于边缘和移动设备的中小型视觉 LLM（11B 和 90B）和轻量级纯文本模型（1B 和 3B），包括预训练和教学调整版本。

2.Llama 3.2 1B 和 3B 模型支持 128K 令牌的上下文长度，是同类产品中最先进的，适用于在边缘本地运行的设备端使用案例，例如摘要、指令跟踪和重写任务。这些模型在第一天就为 Qualcomm 和 MediaTek 硬件启用，并针对 Arm 处理器进行了优化。

3.在广泛的生态系统的支持下，Llama 3.2 11B 和 90B 视觉模型是其相应文本模型等效项的直接替代品，同时与 Claude 3 Haiku 等封闭模型相比，在图像理解任务方面表现出色。与其他开放式多模态模型不同，预训练模型和对齐模型都可以使用 torchtune 针对自定义应用程序进行微调，并使用 torchchat 在本地部署。他们也可以使用Meta的智能助手Meta AI 进行尝试。

4.Meta将分享第一个官方 Llama Stack 发行版，简化开发人员在不同环境（包括单节点、本地、云和设备上）中使用 Llama 模型的方式，从而实现检索增强生成（RAG）和具有集成安全性的启用工具的应用程序的交钥匙部署。

5.Meta在与 AWS**、Databricks、Dell Technologies、Fireworks、**Infosys 和 Together AI 等合作伙伴密切合作，为他们的下游企业客户构建 Llama Stack 发行版。设备上分发通过PyTorch ExecuTorch 进行，单节点分发通过 Ollama 进行。

6.Meta分享Meta的工作，因为Meta相信开放性可以推动创新，对开发者、Meta 和世界都有好处。Llama 已经在开放性、可修改性和成本效益方面处于领先地位，使更多人能够使用生成式 AI 获得创造性、有用和改变生活的突破。

7.Meta正在 llama.com 和 Hugging Face 上提供 Llama 3.2 模型下载，并可在Meta广泛的合作伙伴平台生态系统上立即开发，包括 AMD**、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、**Snowflake 等。

1 前言

Llama 3.1模型群包括 405B——第一个开放的前沿级 AI 模型。虽然这些模型非常强大，Meta认为，使用它们进行构建需要大量的计算资源和专业知识。Meta也收到了开发人员的反馈，他们无法访问这些资源，但仍希望有机会使用 Llama 进行构建。正如 Meta 创始人兼首席执行官马克扎克伯格今天在 Connect 上分享的那样，他们不必再等待了。今天，Meta发布了 Llama 3.2，其中包括适合特定边缘和移动设备的中小型视觉 LLM（11B 和 90B）和轻量级纯文本模型（1B 和 3B）。

自Meta首次宣布 Llama 以来，只有一年半的时间，Meta在如此短的时间内取得了令人难以置信的进展。今年，Llama 实现了 10 倍的增长，成为负责任创新的标准。Llama 在开放性、可修改性和成本效率方面也继续处于领先地位，并且与封闭模式相比具有竞争力，甚至在某些领域处于领先地位。Meta相信开放性可以推动创新，是正确的前进道路，这就是Meta继续与合作伙伴和开发人员社区分享Meta的研究并合作的原因。

Meta正在提供 Llama 3.2 模型，供 llama.com 和 Hugging Face 下载，并可在Meta广泛的合作伙伴平台生态系统上立即开发。合作伙伴是这项工作的重要组成部分，Meta已经与超过 25 家公司合作，包括AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud 和 Snowflake，以便在第一天就启用服务。对于 Llama 3.2 版本，Meta还与设备合作伙伴 Arm、MediaTek 和 Qualcomm 合作，在发布时提供广泛的服务。从今天开始，Meta还将向社区提供 Llama Stack。有关最新版本的更多详细信息，包括有关欧洲多式联运可用性的信息，请参阅Meta的可接受使用政策。

2 认识 Llama 3.2

Llama 3.2系列中最大的两个模型 11B 和 90B 支持图像推理使用案例，例如文档级理解（包括图表和图形）、图像字幕和视觉接地任务（例如根据自然语言描述定向精确定位图像中的对象）。例如，一个人可以问一个问题，关于他们的小企业在上一年的哪个月销售额最好，然后 Llama 3.2 可以根据可用图表进行推理并快速提供答案。在另一个示例中，该模型可以使用地图进行推理并帮助回答诸如徒步旅行何时会变得更陡峭或地图上标记的特定路线的距离等问题。11B 和 90B 型号还可以通过从图像中提取细节、理解场景，然后制作一两个可用作图像标题的句子来帮助讲述故事，从而弥合视觉和语言之间的差距。

轻量级 1B 和 3B 型号具有强大的多语言文本生成和工具调用功能。这些模型使开发人员能够构建个性化的设备端代理应用程序，这些应用程序具有很强的隐私性，数据永远不会离开设备。例如，这样的应用程序可以帮助汇总收到的最后 10 条消息，提取操作项，并利用工具调用直接发送日历邀请以进行后续会议。

在本地运行这些模型有两个主要优势。首先，提示和响应可能会让人感觉是即时的，因为处理是在本地完成的。其次，在本地运行模型不会将消息和日历信息等数据发送到云中，从而保护隐私，从而使整个应用程序更加私密。由于处理是在本地处理的，因此应用程序可以清楚地控制哪些查询保留在设备上，哪些查询可能需要由云中的更大模型处理。

3 模型评估

Meta的评估表明，Llama 3.2 视觉模型在图像识别和一系列视觉理解任务方面与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 具有竞争力。3B 模型在遵循说明、总结、提示重写和工具使用等任务上优于Gemma 2 2.6B 和 Phi 3.5-mini 模型，而 1B 模型与 Gemma 竞争。

Meta评估了 150 多个涵盖多种语言的基准数据集的性能。对于视觉 LLM，Meta评估了图像理解和视觉推理的基准性能。

4 视觉模型

作为第一款支持视觉任务的 Llama模型，11B和 90B模型需要一种支持图像推理的全新模型架构。为了添加图像输入支持，Meta训练了一组适配器权重，这些权重将预先训练的图像编码器集成到预先训练的语言模型中。该适配器由一系列交叉注意层组成，这些层将图像编码器表示形式馈送到语言模型中。Meta在文本-图像对上训练适配器，以使图像表示与语言表示对齐。在适配器训练期间，Meta还更新了图像编码器的参数，但故意没有更新语言模型参数。通过这样做，Meta保持了所有纯文本功能不变，为开发人员提供了 Llama 3.1 模型的直接替代品。 Meta的训练管道由多个阶段组成，从预训练的 Llama 3.1 文本模型开始。首先，Meta添加图像适配器和编码器，然后对大规模噪声（图像、文本）对数据进行预训练。接下来，Meta使用中等规模的高质量域内和知识增强（图像、文本）对数据进行训练。

Meta****的训练流水线由多个阶段组成，从预训练的 Llama 3.1 文本模型开始。首先，Meta添加图像适配器和编码器，然后对大规模噪声（图像、文本）对数据进行预训练。接下来，Meta使用中等规模的高质量域内和知识增强（图像、文本）对数据进行训练。

在后训练中，Meta使用与文本模型类似的配方，对监督微调、拒绝采样和直接偏好优化进行几轮对齐。Meta通过使用 Llama 3.1 模型在域内图像之上筛选和增强问题和答案来利用合成数据生成，并使用奖励模型对所有候选答案进行排名，以提供高质量的微调数据。Meta还添加了安全缓解数据，以生成具有高安全性的模型，同时保留模式的有用性

最终结果是一组模型，这些模型可以同时接受图像和文本提示，并深入理解和推理组合。这是 Llama 模型朝着具有更丰富的代理能力迈出的又一步。

5 轻量级模型

正如Meta在 Llama 3.1 中讨论的那样，可以利用强大的指导模型来创建性能更高的更小模型。Meta在1B 和 3B 型号上使用了两种方法（修剪和蒸馏），使它们成为第一款可以高效安装在设备上的高性能轻量级 Llama 型号。

修剪使Meta能够减小 Llama 群中现有模型的大小，同时尽可能多地恢复知识和性能。对于 1B 和 3B 模型，Meta采用了 Llama 3.1 8B 中以单次方式使用结构化修剪的方法。这涉及系统地删除网络的某些部分，并调整权重和梯度的大小，以创建更小、更高效的模型，从而保留原始网络的性能。

知识蒸馏使用较大的网络在较小的网络上传授知识，其理念是较小的模型可以使用教师实现比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B，Meta将 Llama 3.1 8B 和 70B 模型的 logit 合并到模型开发的预训练阶段，其中这些较大模型的输出（logit）被用作令牌级目标。修剪后使用知识蒸馏来恢复性能。

在后训练中，Meta使用与 Llama 3.1 类似的配方，并通过在预训练模型上进行几轮对齐来生成最终聊天模型。每一轮都涉及监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）。

在后训练中，Meta将上下文长度支持扩展到 128K 个令牌，同时保持与预训练模型相同的质量。Meta还参与合成数据的生成，通过仔细的数据处理和过滤来确保高质量。Meta仔细混合数据，以优化摘要、重写、指令遵循、语言推理和工具使用等多种功能的质量。

为了让社区能够在这些模型上进行创新，Meta与全球排名前两位的移动片上系统 （SoC） 公司****Qualcomm 和 Mediatek 以及为 99% 的移动设备提供基础计算平台的 Arm **密切合作。**今天发布的权重基于 BFloat16 数字。Meta的团队正在积极探索运行速度更快的量化变体，Meta希望尽快分享更多相关信息。

6 Llama****栈分布

7月，Meta****发布了 关于 Llama Stack API 的评论请求，这是一个用于规范工具链组件（微调、合成数据生成）的标准化接口，用于自定义 Llama 模型和构建代理应用程序。参与度很高。

从那时起，Meta一直在努力使 API 成为现实。Meta构建了用于推理、工具使用和 RAG 的 API 的参考实现。此外，Meta一直在与合作伙伴合作，使他们成为 API 的提供者。最后，Meta引入了 Llama Stack Distribution 作为打包多个 API 提供者的方法，这些 API 提供者可以很好地协同工作，为开发人员提供单个端点。Meta现在与社区分享一种简化且一致的体验，使他们能够在多个环境（包括本地、云、单节点和设备）中使用 Llama 模型。

全套版本包括：

1.用于构建、配置和运行 Llama Stack 发行版的 Llama CLI（命令行界面）

2.多种语言的客户端代码，包括 python、node、kotlin 和 swift

3.适用于 Llama Stack Distribution Server 和 Agents API Provider 的 Docker 容器

4.多个发行版

▪通过 Meta 内部实现和 Ollama 进行单节点 Llama 堆栈分发

▪通过 AWS、Databricks、Fireworks 和 Together 的 Cloud Llama Stack 发行版

▪通过 PyTorch ExecuTorch 实现的 iOS 设备上的 Llama 堆栈分发

▪Dell 支持的本地 Llama 堆栈分发

Meta期待与开发人员和合作伙伴合作，简化使用 Llama 模型进行构建的各个方面，并欢迎反馈。

7系统级安全

采用开放的方法有很多好处。它有助于确保世界各地的更多人能够获得 AI 提供的机会，防止权力集中在少数人手中，并在整个社会中更公平、更安全地部署技术。随着Meta不断创新，Meta还希望确保Meta使开发人员能够构建安全且负责任的系统。

基于Meta之前的版本和支持负责任的创新的持续努力，今天Meta将为Meta的保护措施系列添加新的更新：

•首先，Meta将发布 Llama Guard 3 11B Vision，它旨在支持 Llama 3.2 的新图像理解功能，并筛选文本+ 图像输入提示或对这些提示的文本输出响应。

•其次，随着Meta发布了 1B 和 3B Llama 模型以用于更受限的环境（如设备上），Meta还优化了Llama Guard，以大幅降低其部署成本。Llama Guard 3 1B 基于 Llama 3.2 1B 模型，并经过修剪和量化，使其大小从 2858 MB 降至 438 MB，使其部署效率比以往任何时候都高。

这些新的解决方案已集成到Meta的参考实施、演示和应用程序中，并可供开源社区在第一天使用.

8 试用 Llama 3.2

Llama 3.2已准备好覆盖比以往更多的人，并支持令人兴奋的新用例。Meta认为，与开源社区共享这些模型是不够的。Meta希望确保开发人员也拥有负责任地使用 Llama 进行构建所需的工具。作为Meta持续负责任发布工作的一部分，Meta将为开发人员提供新的工具和资源，并且一如既往，Meta将在负责任使用指南中更新最佳实践。

Meta继续分享 Llama 生态系统的最新进展，因为Meta相信开放性可以推动创新，对开发者、Meta 和世界都有好处。Meta很高兴能继续与合作伙伴和开源社区进行对话，与往常一样，Meta迫不及待地想看看社区使用 Llama 3.2 和 Llama Stack 构建了什么。

这项工作得到了__Meta__在 AI _社区的合作伙伴的支持。__Meta__要感谢并感谢（按字母顺序排列）：埃森哲、AMD、Arm、AWS、Cloudflare、Databricks、戴尔、德勤、Fireworks.ai、Google Cloud、Groq、Hugging Face、IBM watsonx、Infosys、英特尔、Kaggle、联想、LMSYS、联发科、Microsoft Azure、NVIDIA、OctoAI、Ollama、Oracle Cloud、普华永道、高通、Sarvam AI、Scale AI、Snowflake、_Together AI 和加州大学伯克利分校 - vLLM 项目。