Llama系列迈向多模态新时代：3.2版本开源超越闭源，并携手Arm推出手机优化版

AI大模型-王哥

于 2024-09-27 20:37:16 发布

阅读量369

点赞数 9

文章标签： llama 开源人工智能大模型入门大模型学习大模型大模型教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84204413/article/details/142601927

版权

在多模态领域，开源模型也超闭源了！

就在刚刚结束的 Meta 开发者大会上，Llama 3.2 闪亮登场：

这回不仅具备了多模态能力，还和 Arm 等联手，推出了专门为高通和联发科硬件优化的 “移动” 版本。

在这里插入图片描述

具体来说，此次 Meta 一共发布了 Llama 3.2 的 4 个型号：

110 亿和 900 亿参数的多模态版本
10 亿参数和 30 亿参数的轻量级纯文本模型

官方数据显示，与同等规模的 “中小型” 大模型相比，Llama 3.2 11B 和 90B 表现出了超越闭源模型的性能。

尤其是在图像理解任务方面，Llama 3.2 11B 超过了 Claude 3 Haiku，而 90B 版本更是能跟 GPT-4o-mini 掰掰手腕了。

在这里插入图片描述

而专为端侧打造的 3B 版本，在性能测试中表现也优于谷歌的 Gemma 2 2.6B 和微软的 Phi 3.5-mini。

如此表现，着实吸引了不少网友的关注。

有人兴奋地认为，Llama 3.2 的推出可能再次 “改变游戏规则”：

端侧 AI 正在变得越来越重要。

在这里插入图片描述

Meta AI 官方对此回复道：

其中一些模型参数量很小，但这个时刻意义重大。

首个视觉🦙

有关 Llama 3.2 具体能做什么，这次官方也释出了不少 demo。

先看个汇总：Llama 3.2 11B 和 90B 支持一系列多模态视觉任务，包括为图像添加字幕、根据自然语言指令完成数据可视化等等。

举个🌰，丢给 Llama 3.2 一张图片，它能把图片中的元素一一拆解，告诉你详细的图片信息：

同样，也可以反过来根据文字指令找出符合用户需求的图片。

Llama 3.2 11B 和 90B 也是首批支持多模态任务的 Llama 系列模型，为此，Meta 的研究人员打造了一个新的模型架构。

在 Llama 3.1 的基础之上，研究人员在不更新语言模型参数的情况下训练了一组适配器权重，将预训练的图像编码器集成到了预训练的语言模型中。

这样，Llama 3.2 既能保持纯文本功能的完整性，也能 get 视觉能力。

训练过程中，Llama 3.2 采用图像 - 文本对数据进行训练。训练分为多个阶段，包括在大规模有噪声数据上的预训练，和更进一步在中等规模高质量领域内和知识增强数据上的训练。

在后训练（post-training）中，研究人员通过监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）进行了几轮对齐。

专为端侧打造的 “小” 模型

至于 1B 和 3B 这两个轻量级模型，目的更加清晰：

随着苹果 Apple Intelligence 的推出，对于电子消费市场而言，手机等终端上的生成式 AI 已经成为标配。

而脱离云端独立运行在终端上的模型，无论是从功能还是从安全的角度，都是终端 AIGC 落地的关键。

△端侧写作助手

Llama 3.2 1B 和 3B 模型由 Llama 3.1 的 8B 和 70B 模型剪枝、蒸馏得到。

可以简单理解为，这俩 “小” 模型是 Llama 3.1 教出来的“学生”。

Llama 3.2 1B 和 3B 仅支持文本任务，上下文长度为 128K。来自 Meta 合作方 Arm 的客户业务线总经理 Chris Bergey 认为：

明年初甚至今年年底，开发人员就会在应用程序中落地这两个型号的 Llama 3.2。

它们拥有更好的效率，能在 1W 功率下或在 8 毫秒以内提供答案。

不少网友也为此点赞：

Llama 3.2 的轻量级模型能真正改变 AI 在手机和其他设备上的应用。

还有网友已经第一时间实践上了：

我惊叹于这个 1B 模型的能力。

这位网友用 Llama 3.2 1B 运行了一个完整的代码库，并要求它总结代码，结果是酱婶的：

“不完美，但远超预期。”

前有 OpenAI「Her」全量开放、谷歌 Gemini 1.5 迎来重大升级，Llama 这边也紧锣密鼓跟上新动作，AI 圈的这一周，依旧是开源闭源激情碰撞，充满话题度的一周。

那么，你怎么看 Llama 这波新发布？

对了，如果你对 Llama 3.2 感兴趣，大模型竞技场已经可以试玩了。

Ollama、Groq 等也已第一时间更新支持。

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

AI大模型-王哥

关注

9
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。