Llama系列上新多模态!3.2版本开源超闭源,还和Arm联手搞了手机优化版

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

在多模态领域,开源模型也超闭源了!

就在刚刚结束的Meta开发者大会上,Llama 3.2闪亮登场:

这回不仅具备了多模态能力,还和Arm等联手,推出了专门为高通和联发科硬件优化的“移动”版本。

2c1c97d89b312d3c0176581cb8dce12f.png

具体来说,此次Meta一共发布了Llama 3.2的4个型号:

  • 110亿和900亿参数的多模态版本

  • 10亿参数和30亿参数的轻量级纯文本模型

官方数据显示,与同等规模的“中小型”大模型相比,Llama 3.2 11B和90B表现出了超越闭源模型的性能。

尤其是在图像理解任务方面,Llama 3.2 11B超过了Claude 3 Haiku,而90B版本更是能跟GPT-4o-mini掰掰手腕了。

c4fdefcc3c0574106b8c10c9fed1df87.png

而专为端侧打造的3B版本,在性能测试中表现也优于谷歌的Gemma 2 2.6B和微软的Phi 3.5-mini。

如此表现,着实吸引了不少网友的关注。

有人兴奋地认为,Llama 3.2的推出可能再次“改变游戏规则”:

端侧AI正在变得越来越重要。

bc728c9d7f4791bf9d0a53a4e6f56fd9.png

Meta AI官方对此回复道:

其中一些模型参数量很小,但这个时刻意义重大。

6dfe587e8a6094ad892fed6ab4338772.png

首个视觉🦙

有关Llama 3.2具体能做什么,这次官方也释出了不少demo。

先看个汇总:Llama 3.2 11B和90B支持一系列多模态视觉任务,包括为图像添加字幕、根据自然语言指令完成数据可视化等等。

137366f8563c5c51836390e21cfedb32.png

举个🌰,丢给Llama 3.2一张图片,它能把图片中的元素一一拆解,告诉你详细的图片信息:

d9ef1ea46b8796b616c0829d5fb40691.gif

同样,也可以反过来根据文字指令找出符合用户需求的图片。

de53c30a78186fbb166f0a903f6fdd06.gif

Llama 3.2 11B和90B也是首批支持多模态任务的Llama系列模型,为此,Meta的研究人员打造了一个新的模型架构。

在Llama 3.1的基础之上,研究人员在不更新语言模型参数的情况下训练了一组适配器权重,将预训练的图像编码器集成到了预训练的语言模型中。

这样,Llama 3.2既能保持纯文本功能的完整性,也能get视觉能力。

训练过程中,Llama 3.2采用图像-文本对数据进行训练。训练分为多个阶段,包括在大规模有噪声数据上的预训练,和更进一步在中等规模高质量领域内和知识增强数据上的训练。

在后训练(post-training)中,研究人员通过监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)进行了几轮对齐。

专为端侧打造的“小”模型

至于1B和3B这两个轻量级模型,目的更加清晰:

随着苹果Apple Intelligence的推出,对于电子消费市场而言,手机等终端上的生成式AI已经成为标配。

而脱离云端独立运行在终端上的模型,无论是从功能还是从安全的角度,都是终端AIGC落地的关键。

143ab93a418ab51ee64eb14485b73fd0.gif
端侧写作助手

Llama 3.2 1B和3B模型由Llama 3.1的8B和70B模型剪枝、蒸馏得到。

可以简单理解为,这俩“小”模型是Llama 3.1教出来的“学生”。

7272289367f7d83bfa85748917283831.png

Llama 3.2 1B和3B仅支持文本任务,上下文长度为128K。来自Meta合作方Arm的客户业务线总经理Chris Bergey认为:

明年初甚至今年年底,开发人员就会在应用程序中落地这两个型号的Llama 3.2。

它们拥有更好的效率,能在1W功率下或在8毫秒以内提供答案。

不少网友也为此点赞:

Llama 3.2的轻量级模型能真正改变AI在手机和其他设备上的应用。

44d9f87c6e921e95a0f8a009cf2ed9c4.png

还有网友已经第一时间实践上了:

我惊叹于这个1B模型的能力。

这位网友用Llama 3.2 1B运行了一个完整的代码库,并要求它总结代码,结果是酱婶的:

2a593a8f24ec9ba29a8bd5745c743ca6.png

“不完美,但远超预期。”

前有OpenAI「Her」全量开放、谷歌Gemini 1.5迎来重大升级,Llama这边也紧锣密鼓跟上新动作,AI圈的这一周,依旧是开源闭源激情碰撞,充满话题度的一周。

那么,你怎么看Llama这波新发布?

对了,如果你对Llama 3.2感兴趣,大模型竞技场已经可以试玩了。

1fcc389b13b5a320f2c5769c8ff3e068.png

Ollama、Groq等也已第一时间更新支持。

参考链接:
[1]https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
[2]https://www.cnet.com/tech/mobile/meta-and-arm-want-to-bring-more-ai-to-phones-and-beyond/#google_vignette
[3]https://news.ycombinator.com/item?id=41649763

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道,评选从企业人物产品三大维度设立了5类奖项。

欢迎扫码报名评选!评选结果将于12月MEET2025智能未来大会公布,期待与数百万从业者共同见证荣誉时刻。

462a7f2f2d59f4f072d2a22d8eb35ee4.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值