苹果端侧AI布局深度分析

220 篇文章 0 订阅
220 篇文章 0 订阅

苹果 - 国际巨头的端侧 AI布局 深度分析

   

1.1.1 苹果AI:模型侧:MM1

  • 3月,苹果发布多模态大模型MM1,拥有高达300亿参数。MM1融合密集模型与MoE变体,涵盖300亿、70亿、30亿参数版。MM1预训练指标领先,在多个多模态基准上微调后仍具竞争力。
  • MM1模型凭借多模态预训练,在上下文预测和多图像推理中表现卓越。经指令调优,其少样本学习能力显著提升。在多基准测试中,苹果的MoE模型超越密集模型,预示MoE模型扩展潜力巨大。

9027239feccd38e4860fed65e12eddfa.jpeg

由于其大规模多模态预训练,MM1可进行上下文预测。这使得MM1能够:

a)计数对象并遵循自定义格式;

b)引用图像的部分并执行OCR;

c)展示关于日常物品的常识和词汇知识;

d)执行基本的数学函数。

MM1模型,遵循指令跨图推理强,VILA示例助其精准答。苹果AI,OpenELM技术,引领智能新潮流。

  • 4月26日,苹果发布开源AI大模型OpenELM,涵盖2.7亿至30亿参数,专为轻量级设备设计,降低运行成本。同时,开源模型权重、推理代码等,助力文本生成。
  • OpenELM采用“分层缩放”策略优化Transformer模型,10亿参数规模下,相较OLMo,准确率提升2.36%,预训练token减少50%。
  • OpenELM BFloat16基准测试,在配备英特尔i9-13900KF CPU、RTX 4090 GPU、24GB DDR5内存的工作站及M2 Max MacBook Pro(64GB内存)上运行。

7a74eb0b8d81312626be81c3bdf18bb7.jpeg20e1e491026dd0db44a4498a35ef72d7.jpeg1.1.3 苹果AI:模型侧:Ferret-UI

  • 4月8日,苹果展示了多模态模型Ferret-UI。Ferret-UI系统可以理解手机屏幕上的应用程序内容,专为增强对移 动端UI屏幕 的理解而定 制,其配备 了引用(referring ) 、 定 位 ( grounding ) 和 推 理 (reasoning)功能。
  • Ferret-UI具备了解决现有大部分通用多模态大模型所缺乏的理解用户界面(UI)屏幕并与其有效交互的能力
  • Ferret-UI与OpenAI近期发布的GPT-4o、谷歌近期发布的Gemini 1.5 Pro在功能上异曲同工。
  • Ferret-UI可执行从基本到复杂任务等11种任务。它能在移动UI屏幕上使用灵活的输入格式(点、框、涂鸦)执行指代任务(例如控件分类、图标识别、OCR)和定位任务(例如查找控件、查找图标、查找文本、控件列表)。
  • 这些基本任务为模型提供了丰富的视觉和空间知识,使其能在粗略和精细级别(例如各种图标或文本元素之间)区分UI类型。这些基础知识对于执行更高级的任务至关重要。具体来说,Ferret-UI不仅能在详细描述和感知对话中讨论视觉元素,还可在交互对话中提出面向目标的动作,并通过功能推理推断出屏幕的整体功能。

775898a329087ede38a64a7892a05e69.jpeg1.1.3 苹果AI:模型侧:Ferret-UI

  • Ferret-UI建立在Ferret的基础上。Ferret是一个MLLM,在不同形状和细节水平的自然图像中实现空间参考和基础。无论是点、框还是任何自由形式的形状,它都可以解释相应区域或对象并与之交互Ferret包含一个预训练的视觉编码器(例如CLIP-ViT-L/14)和一个Decoder Only的语言模型(例如Vicuna)。
  • 此外,Ferret还采用了一种独特的混合表示技术,该技术将指定区域转换为适合LLM处理的格式。本质上,空间感知视觉采样器旨在熟练地管理不同稀疏度级别的区域形状的连续特征。
  • Ferret-UI-base虽基于Ferret架构,却拓展了图像功能。其预训练编码器和投影层可生成全屏图像特征,针对子图像更精细。文本的视觉采样生成区域连续要素。LLM综合全图、子图、区域特征与文本嵌入,生成智能响应。


4636e52d78dd1885394753b9955190af.jpeg

  • Ferret-UI高效处理任务,UI检测器精确识别元素类型、文本及位置。构建训练样本,专注图标、文本及控件,生成指代与定位样本,精准定位任务执行。

6e5c3253cf8068785993e0563f19617a.jpeg

  • Ferret-UI高效处理复杂任务:通过归一化坐标,将检测、提示与GPT-4交互,生成响应配对训练。对话任务直接转换多回合对话,提升交互体验。
  • Ferret-UI革新性地采用“任意分辨率”设计,完美适配各类屏幕。通过庞大的基本和高级UI任务训练样本,其在引用、定位和推理上展现卓越能力。这一突破预示着,在众多UI应用领域,Ferret-UI将带来颠覆性进步,极大拓展其潜在价值。

95d824aacce99d6188a7d960d7f5e5c6.jpeg
1.2.1 苹果AI:硬件侧:手机AP后劲不容小觑

  • 苹果于2017年率先在SoC中引入NPU计算单元,应用于iPhone 8系列及iPhone X。尽管苹果A17芯片的AI算力为35TOPS,略逊于高通骁龙8Gen2(后者支持10+亿参数的AI模型),但AI性能取决于CPU、GPU、NPU的综合实力,软件适配优化同样关键。
  • 苹果M系列芯片采用统一内存架构设计,允许CPU、GPU及其他协处理器共享和访问相同的内存池,使得并行计算更快速高效。M4芯片支持120GB/s的系统内存带宽,M3芯片最高支持128GB内存,M2 Ultra配置高达192GB的统一内存和800GB/s的系统内存带宽,相当于支持了近似容量的显存,甚至可能容纳下LLaMA-65B模型(650 亿参数,显存需求是130GB左右)。在苹果统一内存架构下,CPU、GPU和内存直接通过硅中介层连在一起,数据传输带宽极高。M3/M4系列芯片采用ARM架构设计,台积电3nm工艺制造,在能效比方面优势显著。
  • 苹果统一内存架构+ARM架构的能效比优势
  • 在端侧AI时代极具想象空间。
  • 在《LLM in a flash》论文中,苹果揭示了在内存受限设备上高效运行大型语言模型(LLM)的关键技术,实现内存优化下的高效推理。
  • 苹果将模型参数存储在Flash中,按需将其带入DRAM,从而高效地运行超出可用DRAM容量的LLMs。为此,苹果构建了一个推理成本模型,其通过引入两种主要技术,即“窗口化”(通过重用之前激活的神经元战略性地减少数据传输)、以及“行列打包”(针对闪存的顺序数据访问优势,增加了从闪存读取的数据块大小),减少了从闪存传输的数据量、以及以更大更连续的块读取数据。这些方法使得能运行的模型大小达到可用DRAM容量的两倍,与CPU和GPU中的简单加载方法相比,推理速度分别提高了4-5倍和20-25倍。这些方法促成了数据负载的显著减少和内存使用效率的提高,对于端侧部署先进的AI模型尤为关键。

闪存容量提升,带宽受限。随机读取吞吐量随块大小及线程数增。苹果优化单token推理,延迟缩减1.3倍。AI时代,苹果重塑Siri,把握流量入口。

  • 纽约时报独家预告:苹果2024年WWDC将大放异彩,全新升级的Siri语音助手将亮相!新Siri将具备更丰富的对话性和多功能性,底层搭载全新生成式AI系统,实现聊天交互,助力处理日常任务,如设置定时器、创建日程和添加购物清单等,成为您的个人智能助手。敬请期待!
  • 根据苹果之前在语音领域发表的论文来看新版Siri可能的改进方向,主要有:

1)无需唤醒词,就能使用Siri助手,或者更准确地检测唤醒词;

3)生成答案时不再冗长,用户更容易理解等。

  • 结合5月OpenAI和谷歌的发布会来看,在AI语音方面,GPT-4o的拟人化风格,包括能识别人类感情,并根据用户感情做出相应的情绪反应,在语音交互中可随时打断,更贴近真实对话场景等,打破传统的类机器人体验;谷歌DeepMind展示了基于Gemeini开发的智能体Astra的语音交互能力,包括强化的智能体发音、更广泛的语调、更好地理解上下文,并在对话中快速做出响应等。鉴于苹果与OpenAI和谷歌未来可能的合作,预计这些体验未来或将加入到Siri的功能当中。

GPT-4o实现拟人化语音交流,Google Astra手机实时推理1.3.2版亮相;苹果AI赋能原生APP,提升服务价值!

苹果APP独领风骚,AI应用工具助手与办公、娱乐类应用井喷。AI Vision Pro,苹果AI终端的未来杀手锏,将重塑生态格局。

  • XR设备,个人空间的新延伸,承载海量信息,深度内容数据。AI技术如计算机视觉、自然语言交互等,打造沉浸式体验。GPT等AI助力XR产业,提升企业生产力。AI与XR融合,拓展数字体验至制造业、教育等多元领域,引领未来生态革新。
  • 苹果Vision Pro引领空间计算新纪元,创新3D交互体验。AI赋能技术革新,打造更强大的元宇宙架构,提升用户体验。

苹果Vision Pro交互界面b781d1edf935a4517a148f5bdef6e969.jpeg
苹果Vision Pro重新定义XR设计12b59974d1890f8b01fd5ceddf641b41.jpeg

  • 苹果的Vision Pro开启了空间计算时代,带来了全新的3D交互方式。VisionOS搭载全新的3D界面,让数字内容看起来就像在用户的真实世界存在。Vision Pro带来全新的输入系统,用户通过眼睛、双手和语音来控制。VisionOS作为革命性的操作系统,利用用户周围的空间提供强大的空间体验,解锁办公和居家的全新机会。硬件方面,Vision Pro突破性的显示和先进的音频体验、以及高效的眼睛追踪系统,由M2和R1芯片来驱动。
  • 生成式AI赋能空间计算将大幅推动技术革新和提升用户体验,基于苹果强大的芯片能力,Vision Pro将有力承接AI模型和生成式AI在端侧的部署,开创新的元宇宙时空
  • IDC预测,2024年VR/AR头显市场将达1250万台,苹果Vision Pro和Meta Quest 3引领增长。2027年全球销量预计突破3000万台。

XR与智能眼镜实时推理力升级,苹果凭借1.5万亿全球VR/AR市场、充裕现金流及对AI技术的大规模投入,深度布局AI领域。

  • 苹果持续深耕AI与机器学习,研发投入不断攀升。2023财年研发支出近300亿美元,上半年增长2.9%,达156亿美元。资本支出常年超百亿,AI投入预期将扩大规模。2023财年自由现金流高达995.8亿美元,上半年增长4.2%,为新技术布局提供坚实保障。

f441b09d1ef2318e9f4711fb60afaa72.jpeg
苹果自由现金流情况bc60fd79f61b33af8f4e2e0fa37b7abd.jpeg


-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

科技互联人生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值