Arm 终端事业部产品管理副总裁James McNiven: CPU 是确保运行未来网络的计算引擎...

作者 | 王轶群

责编 | 唐小引

出品丨AI 科技大本营(ID:rgznai100)

“CPU 是唯一可以确保运行未来网络的计算引擎。”Arm 终端事业部产品管理副总裁James McNiven在5月末的媒体采访会上表示, “Arm 深信异构计算的重要性,将CPU 视为计算的基础,与 GPU、NPU 等其他加速器协同交付性能。”

2b266ac93f8589dbef944c0d94c0206a.png

James 于演讲上介绍了 Arm 新推出的Arm 终端计算子系统 (CSS) 和 KleidiAI 及 KleidiCV,一方面为芯片伙伴带来快速上市的解决方案,另一方面也为开发者创建一个无缝获取 Arm 高性能 IP 的途径。

d61db8c9719887edcec276ab5e775604.png

Arm 终端 CSS 提供 AI 算力

James 首先介绍来了最新的 Arm 计算平台 —— Arm 终端计算子系统 (Arm CSS for Client)。

“今年,从 CES 到 MWC,我们都见到了新的用例和设备,并且有越来越多的 AI 正转向在设备端,而不是在云端运行。我们看到,这种趋势正在延展到 AI PC 领域。”James 总结当下的终端算力趋势说:“不论外观,笔记本电脑和智能手机都是我们随身携带的移动设备,需要具备超长的电池续航时间和强大的计算能力。Arm 终端 CSS 就能提供所需的计算能力。”

“Arm 终端 CSS 带来了 Armv9.2 的能效优势,凭借物理实现和持续的软件优化,它将彻底革新开发者和消费者的体验。”James 表示。

Armv9 架构是 Arm 在2021年推出的专为性能和 AI 而设计的架构,Armv9 在过去几年取得的进展有:提高在矢量加速、机器学习 (ML) 等领域的计算能力,增强系统的安全性和稳健性,并持续增加面向 AI 的功能。Arm CSS结合了 Armv9 架构的优势,以及基于三纳米工艺节点,经过验证和证实为生产就绪的新 Arm CPU 和 GPU 实现。

James表示:“Arm 终端 CSS 是迄今速度最快的 Arm 计算平台,提升了 30% 以上的计算和图形性能,以应对要求苛刻的实际用例中的安卓工作负载,同时也提高了 59% 的AI 推理速度,适用于更广泛的 AI/ ML 和计算视觉工作负载。”

Arm 终端 CSS 为旗舰系统级芯片 (SoC) 提供基础计算要素,其具备最新的 Armv9.2 CPU、Arm Immortalis GPU。其中Cortex-X925 CPU 和 Immortalis G925 GPU两款产品分别是 Cortex-X4 和 Immortalis-G720 的直接后继产品,目前Cortex-X4 和 Immortalis-G720为 vivo X100 和 X100 Pro以及Oppo Find X7等旗舰智能手机中的联发科 Dimensity 9300 芯片提供支持。

本次芯片架构并没有沿用先前的命名法则,James介绍道:“今年改名的原因在于,Cortex-X925 是 Cortex-X 推出以来取得最高 IPC 同比增幅的 CPU,我们想以此来清楚呈现其与前代产品的不同。”

Arm Cortex-X925 实现了 Cortex-X 系列推出以来最高的同比性能提升,该 CPU 利用了领先的三纳米工艺节点,在 3.8GHz 的时钟速率和最大缓存大小的条件下,与 2023 年旗舰智能手机的四纳米 SoC 相比,其单线程性能大幅提高 36%。在 AI 性能方面,与去年的 Cortex-X CPU 相比,词元 (Token) 首次响应时间提高了 41%,可显著提高如大语言模型 (LLM) 等设备端生成式 AI 的响应能力。

9c2b4985eff823aad729ab85746c27cc.png

此外,Cortex-X925 还带来了新一代 Cortex-A “小核”微架构 Cortex-A725。Arm 表示,它的能效比上一代 A720 提高了 35%。

“新的 Arm Cortex-A725 CPU 将针对 AI 和手游用例的性能效率提高了 35%。这一改进也得益于更新后的 Arm Cortex-A520 CPU 和更新后的 DSU-120,使得采用最新 Armv9 CPU 集群的消费电子设备可提升能效和可扩展性。”James介绍道。

d167626ecc98d732db890519f3986aee.png

GPU方面,Arm 表示,Immortalis G925 GPU 是其“迄今为止性能最高、效率最高的 GPU”。Immortalis-G925 是 Arm 第三代具备光线追踪技术的 GPU,与上一代 G720 相比,它在图形应用程序上的速度提高了 37%,复杂物体的光线追踪性能提高了 52%,AI 和 ML 工作负载提高了34%,同时功耗降低了30%。

67132b963edd72aa0ff3215845e7e017.png

“在图形效率上,我们发现,在提供与去年终端平台相同水平的游戏性能下,《堡垒之夜》等手游的功耗降低了 30%。”在可扩展性上,James介绍道:”我们的合作伙伴可以利用这一系列不同的 CPU 和 GPU 选项(无论是 CPU 类型、核心数量,还是其中的选项配置,例如我之前提到的缓存大小),针对大屏幕计算、智能手机、数字电视和可穿戴设备等精心设计自己的解决方案。“

其中在演讲中频频出现的“物理实现”一词,James 在接受媒体采访时做了细节阐释:“我们大多数的 IP 是通过 RTL 的形式进行交付,这类似于软件的形式,主要是对 IP 产品的描述。而要使 RTL 变成芯片还需要通过 EDA 工具流,才能把这套描述转变成实际的芯片布局。所以我们指的物理实现,意即我们的设计完成了这些工具流。通过提供物理实现,我们可以帮助合作伙伴节省时间,也有助于他们实现更佳的性能和效率。”

2aeea9eed7b8faa86f032ea0f81836b7.png

KleidiAI,一把为开发者解锁性能的钥匙

“我们希望开发者能够充分利用Arm 终端 CSS 的性能优势,不仅是面向这些新的应用,还可针对其所依托的软件平台,而为了帮助他们做到这一点,我们宣布推出 Arm Kleidi,它可以嵌入到任何软件平台中,以释放我们 CSS 的计算性能。”

“Kleidi 一词来源于希腊语,意为‘钥匙’,即为开发者解锁更多性能的钥匙。”James 解释道。

Arm Kleidi 包括面向 AI 工作负载的 KleidiAI 和面向计算机视觉应用的 KleidiCV。

James 表示:“Kleidi 能够确保开发者可从Arm 终端 CSS 中最新的 Armv9 功能中获得最佳性能,例如可伸缩矢量扩展 (SVE)。”

据悉,KleidiAI 软件与热门的人工智能框架集成,致力于提供无缝的开发者体验;搭配Arm CSS 的 KleidiAI 通过 Neon、SVE2 和 SME2 等一系列 Arm 的加速技术,能显著提高计算应用的性能。

据介绍,KleidiAI 是一套面向 AI 框架开发者的计算内核。KleidiAI 与 PyTorch、Tensorflow、MediaPipe 等热门 AI 框架集成,旨在加速Meta Llama 3、Phi-3 等关键模型的性能,并可前后兼容。

比如,当运行于 Cortex-X925 上时,KleidiAI 技术运行最新 Llama 3 和 Phi-3 LLM 的速度要比参考实现快 2.9 倍,用不到 24 小时就能实现。

c50276c86f655a4a4e195cb02cb54c0f.png

“目前有 70% 的第三方安卓 ML 工作负载都在 CPU 上运行。Kleidi 为开发者提供了实现 Arm CPU 最佳性能的路径,使其能够专注于下一个重大创新。通过针对 Kleidi,应用将能够随着新一代设备的功能更为强大,而解锁未来 Armv9 架构的创新和性能。”James表示。

“计算机视觉现在与 AI 紧密相连,但这些摄像头管线可不仅仅运行神经网络,还有很多传统的计算机视觉算法,其性能对于摄像头或社交媒体应用的顺畅运行至关重要。这就是我们构建 KleidiCV 的原因。当我们将 KleidiCV 融入到常用的 OpenCV 库时,性能便有了显著改进。”

James 表示:“今年,我们还与 OpenCV.ai 合作,力求让安卓开发者可以更轻松地将 OpenCV 纳入到他们的项目中,并从 KleidiCV 带来的改进中受益。因此,这对于我们来说是一个非常重要的开始,也期待在未来几个月里能看到更多的软件库、更多的集成和更多的成功案例。”

36356c6daa26bba62e44388e042e3238.png

”我们对于能够提供基础计算平台感到非常兴奋,这将助力实现新一代领先的 AI体验。”James总结道,“我们会持续关注开发者,确保他们能够获得所需的性能、工具和软件库,以释放其创造力并打造下一波 AI 应用。Arm 终端 CSS 加之 Kleidi 软件,将为未来 AI 提供计算平台,而 Arm 正是这一未来的基石。”

5a22716cac5f2c4651928ed3e6cd3cb8.png

在 COMPUTEX 2024 展前,Arm 首席执行官 Rene Haas 表示,Arm 通过提供全球最完整的计算平台,致力于 AI 技术的发展。凭借 Arm CSS 和 KleidiAI 等技术创新,Rene Haas 预计,到 2025 年底,将有超过 1,000 亿台基于 Arm 架构的设备可用于 AI。

Haas 补充道:“在 Arm 过去 30 多年的发展中我们切实学到,为开发者提供所能获取的资源,与硬件同等重要,否则硬件也无法发挥其作用。”

721b08b9abc769701b42ac7d5dfebe9d.png

与合作伙伴一起,为开发者打造 AI 软硬件生态

除了通过 CSS 推动性能和效率提升之外,Arm还致力于为每一位安卓设备用户提高性能。据悉,在 Cortex-X925 带来的 30% 性能提升基础上,Chrome 网页浏览器性能提高了 23%。

Arm表示,将继续携手 Google,推动其安卓动态性能框架 (Android Dynamic Performance Framework) 的发展。“在最新版本的框架中,我们发现高端内容的每帧能耗降低了 25%,帧速率则提高了 35%。此外,我们还调整了安卓工作负载在不同 CPU 核心之间的平衡方式,从而为 YouTube 节省了高达 10% 的功耗。针对Google 的 AV1 视频编解码器,我们对其进行了软件优化,使当下安卓设备的视频性能最多可提高 40%。”James 介绍道。

590cd6c82df0712f7fdd1383400ee9cf.png

“今年也是我们推进安全技术收获颇丰的一年。James表示。据介绍,Arm 的内存标记扩展 (Memory Tagging Extension, MTE) 可帮助开发者在无需侵入式检测的情况下查找和修复代码中的错误,也可在实际操作环境下,用来减少安全漏洞被利用。在市场应用层面,vivo X100 和 X100 Pro 以及Google Pixel 8 旗舰设备现在都允许用户启用 MTE。

在游戏和图形技术领域对开发者的投入上,Arm 与 Epic Games 合作,确保他们的桌面平台渲染器能够在Arm的 GPU 上快速高效地运行。“今年,我们将持续开展全球的开发者教育活动,以确保游戏开发者能够再现一些精彩示例内容。”James 表示。

在Windows on Arm (WoA) 生态系统上,除了 Microsoft Office、Dropbox、Zoom、Adobe 套件等,百度、哔哩哔哩、Chrome 浏览器、爱奇艺、搜狗、腾讯 QQ 音乐等越来越多的应用成为 Arm 原生应用。

今年Arm新增了许多针对创作者的开源工具,例如最近新增的 Audacity、Blender 和 OBS Studio(用于流媒体),整合了大量的开源库和开发者工具。

在开源方面,James在接受媒体采访时表示:“鉴于很多应用依托于开源库和工具,Arm会继续大力投资于这些开源项目,进而让这些项目中的应用更易于落地为 Arm 原生应用。”据介绍,其面向 Windows 的 Arm 性能库与 Kleidi 有类似之处,即面向 Windows 系统优化运算例程,进而使开发者能提升 WoA应用的性能。

ebf8fb58f3baac4db0c2ba52bbcc1875.png

作为 Arm 在中国的重要合作伙伴之一,vivo 首席芯片规划专家夏晓菲表示:“vivo 非常注重用户体验,在 Arm CSS 的技术基础之上,我们与 Arm 的密切合作,共同推动开发者生态,使手机更流畅更好用,同时也为设备端带来了前沿的 AI 体验。我们很高兴看到 Arm 终端 CSS 所引入的新方向,以及通过 Armv9 CPU 与 Arm GPU,这套计算子系统将赋能新一代设备端生成式 AI,从而实现沉浸式的智能移动端解决方案。 “

此外,在此次的新产品发布中,包括英特尔代工、联发科、三星电子、台积电在内的多家合作伙伴也纷纷加入证言。

英特尔代工副总裁兼生态系统技术办公室总经理 Suk Lee 表示:“我们双方在 Intel 18A 工艺等前沿技术节点上密切合作,以提供一流的功率、性能和面积指标,并基于新的 Arm 终端 CSS赋能新一代移动端 SoC 产品。”

联发科技资深副总经理、无线通信事业部总经理徐敬全博士表示:“我们将于今年下半年推出新一代旗舰移动芯片天玑9400,该芯片将搭载最新的 Armv9 Cortex-X925 CPU 和 Arm Immortalis-G925 GPU。”

三星电子执行副总裁兼代工设计平台开发主管 Jongwook Kye 表示:“在移动端设备中嵌入生成式 AI 功能是客户的主要需求,这就需要将顶尖的芯片技术与领先的计算解决方案相集成。Arm Cortex-X925 CPU解决方案与三星代工厂最新的三纳米 GAA 工艺节点相结合,可以满足这一需求。我们与 Arm 的长期合作伙伴关系使我们能够在最大化 DTCO 和 PPA 方面从早期便开始展开紧密合作,从而按时交付芯片,并满足性能和效率需求。”

台积公司生态系统与合作联盟管理部门负责人 Dan Kochpatcharin:“AI 优化的 Arm CSS 是 Arm 与台积公司的一个合作典范,共同助力芯片设计商实现前所未有的性能和能效,突破面向 AI 的半导体创新极限。通过与 Arm 以及我们开放创新平台 (OIP) 生态伙伴携手合作,我们能够提供最先进的工艺技术和设计解决方案,赋能客户加速 AI 创新。”

有了 Arm 终端 CSS 和 Kleidi 的加持,与软硬件生态合作伙伴的助力,Arm 未来将为开发者带来怎样更好的AI 开发体验,我们保持关注。

c6a46c7169cc08a57b074277b2e40c15.gif

2024 年「全球软件研发技术大会」将于7月4日-5日在北京威斯汀酒店正式举办。本次盛会精心策划多场主体大会演讲、12 个主题板块与 40 +专题演讲分享,汇集了来自 BAT、微软、字节跳动、小米、360 及技术创业公司 C-level 高管与顶尖技术专家、架构师同台分享,共探行业最新研发实践。

官网:http://sdcon.com.cn/

494e6ce628330236a1baad0833a23203.jpeg

  • 15
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值