码农的自我修养 - ARM V9架构的巨大价值

ARM’S V9 ARCHITECTURE EXPLAINS WHY NVIDIA NEEDS TO BUY IT

我们中的许多人一直在绞尽脑汁,为什么Nvidia会花费巨资--高达400亿美元--来收购Arm Holdings,一家销售额在20亿美元左右的芯片架构授权公司--自从2020年7月传出该交易后。当我们坐在那里聆听Arm Vision Day对Arm V9架构的介绍时,我们可能已经明白了,该架构将定义从物联网设备中的微小嵌入式控制器一直到数据中心的大规模CPU的处理器。

正如我们在交易前的原始分析中,在2020年9月交易宣布当天的分析中,以及在2020年10月与英伟达联合创始人兼首席执行官黄仁勋的一对一谈话中指出的那样,有各种积极因素。

我们已经说了很久,我们相信Nvidia需要控制自己的CPU的未来,甚至和黄开玩笑说,它不需要非得买下所有的Arm控股公司来制造最好的Arm服务器CPU。对此,他回应说,这确实是一个千载难逢的机会,通过Arm授权渠道来创造价值和推动Nvidia的所有技术(用于计算和图形的自有GPU以及Mellanox网络接口芯片、DPU处理器和交换机ASIC),使它们都具有可塑性,但又是标准化的,因为Arm的这种授权模式不仅允许使用,而且鼓励改进。

黄会第一个告诉你,Nvidia不可能为每一种情况创造每一种处理器,事实上没有一家公司可以做到。这就是为什么Arm生态系统不仅需要被保护,而且需要以只有像Nvidia这样的相对大公司才能实现的方式进行培养和扩展。(软银被其在全球的投资的财务困境所困扰,基本上不得不出售Arm以修复其资产负债表。这对Nvidia来说是一个买入的机会,Nvidia实际上只花了120亿美元的现金来获得Arm的控制权;其余的是股票市值的钱,从某种意义上说,这是Nvidia可以用来填补剩余280亿美元的 "免费 "资金)。

我们坐在这些采访中,咀嚼着这一切,并将其归结为又一个科技巨头拥有足够的资金来做一件大事。但是,当我们观看Arm首席执行官西蒙-西格斯和Arm技术团队其他成员的愿景日演讲时,他们一直在谈论将更多的矢量数学、矩阵数学和数字信号处理引入即将推出的Arm V9架构。突然间,一切都变得清晰起来:Nvidia和Arm都相信,在一个现代的、大规模分布式的世界里,各种计算都将被定制,以尽可能在本地运行分析、机器学习和其他类型的数据操作和交易处理或预处理,而单一的、兼容的基板将是为许多工作负载创建这种可塑计算结构的最佳答案。这必然意味着,两家公司都绝对相信,在许多情况下,CPU-GPU混合计算模式的适用性将不会也不可能发挥作用。

换句话说,Nvidia的GPU计算业务有一个扩张的极限,也许它比我们许多人所想的要低得多。钟摆将摆回到具有嵌入式矢量和矩阵能力的专用CPU上,为特定算法进行高度调整。这将特别适用于需要本地计算的中间边缘计算和终端物联网设备,因为将数据运回数据中心处理,无论在技术上还是经济上都没有意义。

Arm研究员兼机器学习部门总经理Jem Davies给出了一个完美的例子,说明经济力量正在推动计算走出数据中心,进入一个更加分散的数据星系,正如我们三年前所说的那样。

"在Armv9的时代中,合作伙伴将创造一个由Arm AI支持的未来,在设备上有更多的machine learning,"Davies解释说。"随着超过80亿的语音辅助设备。我们需要在1美元以下的微控制器上进行语音识别。在服务器上处理一切,无论从物理上还是财务上都是行不通的。云计算带宽不是免费的,在设备上识别是唯一的方法。一个使用云服务的语音激活咖啡机每天使用10次,设备制造商每年要为每个设备花费15美元左右。在设备上计算ML也有利于延迟、可靠性和关键的安全性。"

为了让这个问题更加深入人心,如果带有语音识别功能的咖啡壶使用了四年,那么在咖啡数据中心处理数据的语音识别成本将抹去该咖啡壶的全部收入来源,但是同样的功能,如果在专门为这项非常精确的工作而调整的设备上实现,可以以低于1美元的价格完成,并且不会显著影响购买价格。而且,我们认为,咖啡机制造商可能会对语音识别收取一定的费用,并在相当短的时间内收回添加到咖啡壶中的技术的部分或全部投资,直到它成为常态。就像几十年前在咖啡机上安装时钟和计时器一样,让我们都能通过在前一天晚上准备好咖啡豆和水,在早晨醒来时喝上一杯热腾腾的咖啡。

对咖啡机来说是这样,对其他数千亿设备也是这样,从客户端到边缘,和从客户端到数据中心。

在未来十年里,将有数以百万计的这样的例子横跨数千亿的设备,这就是为什么Armv9架构中,Arm工程师正计划做出如此多的改变。当然,这些变化将逐渐出现,就像大多数IT人士熟悉的Armv7和Armv8架构一样,因为这些设计恰好是Arm作为智能手机和平板电脑首选电机的崛起,以及在数据中心基础设施中越来越多的使用,包括但不限于服务器。

这是一个关键的问题,在我们观察IT行业发展的几十年中,我们已经以许多略有不同的方式提出了这个问题:世界是否需要一个单一的、可塑性强的、兼容的基体?我们的意思是,在未来的十年里,是否将是Arm公司帮助IT行业挥别X86的时候?从1997年诺基亚6110手机的推出和2007年苹果iPhone的推出开始,移动电话和随后的智能手机的兴起使Arm架构与X86指令集发生了碰撞。

随着服务器芯片制造商Calxeda在2010年的推出,我们认为有些东西可以给X86的服务器带来冲击,就像X86对RISC/Unix和RISC/Unix在之前几十年数据中心计算中对专有CISC的冲击一样。在过去的十年里,我们看到Arm服务器芯片制造商来了又走。但今天情况不同了。亚马逊网络服务公司已经是世界上最大的Arm服务器制造商,它的Graviton2芯片,而且看起来微软可能正在开发自己的Arm服务器芯片。安培计算公司也在推出一套不错的Arm服务器处理器。富士通的A64FX在日本的 "Fugaku "超级计算机上取得了巨大的成功,欧洲的SiPearl公司和中国的海力士公司也在继续投资于新的系统芯片。

尽管迄今为止在服务器方面存在很多失望--以及一些成功--但很难对Arm下注。如果Nvidia在其400亿美元的收购中获胜,只要Nvidia不捣乱,那么数量和势头都在Arm架构一边。(我们不相信Nvidia会改变Arm的授权,并相信黄先生本人所说的Nvidia将通过Arm的授权管道提供更多而不是更少的技术)。在他的主题演讲中,Segars说,到2021年底,Arm的合作伙伴将基于其架构累计出货2000亿台设备。第一个1,000亿花了26年时间,因为Acorn计算机演变成Advanced RISC Machines并转变为Arm控股公司。第二个1,000亿颗芯片(到2021年底)只花了5年时间就卖出。而在2021年底和本十年末之间,塞格斯预测Arm将再销售3000亿颗芯片。如果按照历史推算,那么在2021年这里的运行速度是每年200亿颗芯片,但到2030年每年大约550亿颗。预计Arm部署的变化速度本身也会加快。

这些Arm芯片有多少会出现在数据中心、不同级别的边缘以及终端内,还有待观察。虽然根据IDC的数据,Arm服务器的出货量在第四季度增长了4.5倍,但它的基数很小,这并没有真正影响英特尔在数据中心服务器的霸权。正如我们几年前所报道的,Arm曾希望到现在能占到服务器出货量的20%,并一度将其期望值提高到2020年的25%。这还远远不够。而AMD凭借其Epyc处理器的重新崛起也没有起作用。但只有傻瓜才会把Arm算进去。正如我们几个月前讨论的那样,Arm服务器的希望是永恒的。

就我们地区而言,直到Armv7加入了40位内存寻址(LPAE)、硬件辅助的服务器虚拟化和矢量浮点(VFP)单元,以及高级SIMD扩展(使整数和浮点矢量指令成为该架构的原生指令),Arm才成为可能的服务器指令集。但是,真正需要的是2011年推出的Armv8架构,其内存扩展到64位,才能成为一个好的服务器芯片,在过去十年中,有一系列技术被添加到这个架构中,使其成为一个非常好的服务器芯片指令集。

"该架构不是一个静态的东西,"Grisenthwaite解释说。"我们不断地创新和发展它,以满足计算世界不断变化的需求。自从我们在Armv8中引入64位处理后的几年里,我们增加了许多扩展功能,例如改进了对虚拟化的支持,增加了float16和bfloat以大幅提高机器学习的性能,以及一些安全方面的改进,包括提高对面向返回的编程的弹性和对安全管理程序的支持。对Arm架构的创新从未停止"。

今天公布的Armv9架构在技术上被称为Armv9-A架构配置文件,其中A是 "应用 "的缩写,意在为客户和服务器设备指定最完整的功能集。R架构适用于 "实时 "用途,而M架构适用于不需要全套功能的 "微控制器",旨在实现低成本和低功耗用途。我们推测,R和M配置文件将很快被添加进来,而且根据制造芯片的Arm授权商、Arm芯片买家和竞争格局的意见,所有Armv9配置文件的功能集将根据市场需要而扩展。

在Armv9架构中,首先要注意的是,它是Armv8的超集,而且有绝对的向后兼容性。没有这一点,Arm就会淹死。

计算方面的第二件大事是支持可扩展矢量扩展2,或SVE2,矢量处理。

Arm自己的 "Ares "N1处理器内核设计不支持SVE,但Neoverse "Zeus "V1内核有一对兼容SVE2的256位矢量单元,"Perseus "N2内核将有一对128位SVE单元。我们推测,未来的 "Poseidon "Neoverse V2和N3内核将支持SVE2矢量单元,并具有上图所述的扩展能力。

"那项技术是以可扩展的方式设计的,以便用于超级计算机的概念可以应用于更广泛的产品,"Grisenthwaite说。"我们增加了更多的功能来创建SVE2,以加强可扩展的矢量扩展,为5G系统和许多其他用例做好工作,如虚拟和增强现实,也用于CPU内的机器学习。在接下来的几年里,我们将进一步扩展这一点,在CPU内执行基于矩阵的计算方面进行实质性的改进。"

这听起来确实不像是一家只打算将困难的数学问题推卸到GPU上的公司。

Armv9架构的最大部分与完全重塑处理器的安全模型有关,使Arm成为比X86处理器更好的选择,除了它可能更节能一点,成本可能更低一点。虽然这些都很重要,但企业可以在客户、边缘和数据中心设备的范围内部署更安全的芯片的想法,我们认为全世界的IT组织都将能够支持。

一项新的安全技术被称为内存标记扩展,它将使黑客更难利用隐藏在世界代码中的时间和空间的漏洞。

"分析世界上软件中被报告的大量安全问题,一个令人沮丧的现实是,许多问题的根源确实回到了过去50年中一直困扰着计算机的老式内存安全问题。两个特别常见的内存安全问题--缓冲区溢出和释放后使用--多年来似乎令人难以置信地持续存在。而问题的一个巨大部分是,它们经常在软件中存在多年才被发现和利用。"

虽然这是一个复杂的功能,但其想法是将存储在内存中的数据的可访问性信息与数据本身封装起来--我们认为这是一种面向对象的安全。如果一个指向内存的指针有一个标签,而当应用程序试图访问内存时,这个标签并不匹配--也许内存已经转移,或者访问超出了范围--标签检查失败,内存访问被拒绝。由于缓冲区溢出和空闲后使用的黑客,不再有对内存的访问。

我们经常谈论20%的价格/性能优势足以改变芯片指令集。这种安全的价值是什么,特别是如果它可以对应用程序透明地进行?我们将发现更多关于剑桥大学的CHERI项目以及Arm控股与微软、谷歌、剑桥大学和爱丁堡大学合作的衍生项目Morello,这些项目在Arm拉入Armv9架构时实现了内存标记。不是没有原因的,但IBM从1988年开始在其AS/400生产线上使用的专有CISC处理器就有内存标签,这种能力在1995年转移到了Power芯片上,今天仍然在IBM i后续平台上。也就是说,IBM并没有将内存标签用于安全,而是用于提高系统的性能。因此,这种使用似乎是新的。

Armv9的另一个新功能叫做Realms,它为Armv8时代发展起来的可信固件增加了一个新的、安全的地址空间扩展。

realm是一种内存分区,至少根据Arm公司开源软件副总裁Mark Hambleton的解释。因此,每个虚拟机将被托管在一个受保护的地址空间内,而不是像今天的管理程序所做的那样,与系统中的其他虚拟机隔绝,同样重要的是,与运行操作系统的不安全区域隔绝。我们的问题是:如果realm管理器可以做所有这些分割和保护工作,那么为什么还要有一个hypervisor呢。

可以肯定的是,这在Armv9-A架构中是一个高层次的功能,我们将随着Arm的发展了解更多。但真正的收获是,Arm相信在设备内以及跨设备的专门处理,是在摩尔定律走向邓纳德扩展的过程中不断推进计算的唯一途径。就像这样:

在未来十年里,软件将不得不与硬件共同设计,其规模之大令人咋舌,什么是大批量芯片的概念也将改变。在拥有一个有太多暗硅但单位成本更低的通用平台和拥有一个专门设计的具有所有正确功能的ASIC以满足特定工作负载之间,需要好好平衡。

这将是一个巨大的硬件-软件工程的头痛问题。有太多的选择。

参考:

https://www.nextplatform.com/2021/03/30/arms-v9-architecture-explains-why-nvidia-needs-to-buy-it/

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
# 学习对象在全民造车、造芯的大时代,在努力去解决卡脖子的时代,ASIC硬件、SOC底层软件、Linux Kernel等操作系统软件(内核/驱动)、软硬件方面的系统架构师等的岗位需求也越来越明显,社会一直都是非常缺人的,缺的是核心的那一小撮、领头的那一小撮,社会所缺的更是能够软硬件融合的那一小撮人……总之,要想在这个时代,站稳自己的脚跟,能够在大公司或行业上拥有一席之地,就必需深入学习底层技术原理,核心技术才是您的看家本领。本课程设计之初,主要针对SOC底层软件开发的者、系统开发者,或者励志成为这样的人。既适合资深/高级工程师来查缺补漏,又适合初级工程师入门。(理论上该课程和ASIC硬件电路设计无关,该课程偏软件,但事实购买该课程的做ASIC的同学已然超过了15%)适用人群1、芯片开发者(包括底层软件、或做ASIC硬件的)。不限行业,例如车、云、物联网、移动端等领域;2、汽车行业开发者(主机厂、tier1、SOC厂家、各级供应商);3、嵌入式开发者、kernel开发者、驱动、软件工程师;4、学生。既适合学生从入门到精通,也适合资深工程师查缺补漏;您的收益:1、全体系的掌握ARMv8/ARMv9的核心知识点(ARM基础、异常中断GIC、MMU/Cache、architecture...);2、掌握ARM架构、掌握SOC架构、掌握常规IP(gic、smmu、timer、AXI/ACE/CHI、TZC400...);3、快速熟悉常规系统软件(bootrom、spl、ATF、TEE、bootloader、kernel...), Secureboot安全启动...4、技术水平提升N个level, 掌握快速的学习方法;# 学习什么在ARM蓬勃发展的年代,不仅仅涉及到物联网IOT、移动领域(如手机)、汽车电子领域,现在还涉及到PC、服务器的,简直就是各行各业。ARMv8出来已经有10年了,ARMv9也2年时间了。在技术不断更新迭代的背景下,此时再去学习十五年前的ARMv7、二十年前的ARMv5/v6显然不是明智的选择。本课程主要基于当前最新的架构ARMv8的aarch64和ARMv9,如涉及具体的ARM Core IP主要还是以最新的ARM Core IP为主,软件架构也是以当前最主流的/未来所趋势的架构来讲解。以下也给大家列举初了一个ARM产品的timeline的总结(在本课程中有着大量的这种总结),从这张图中,您是可以清晰的看到本课程拥有独具一格的风格、拥有全网最新(且唯一)的资料总结或学习路线。# 本课程大纲和规划(课程持续更新中,课程总量统计:2022/10/02  当前是 61节课, 22小时)第一章:主要是快速学习: ARM简介、指令集、寄存器总结等。第二章:本系列视频的一大亮点,系统全面地讲解了arm异常中断gic等相关的软硬件知识,本人一直在倡导“学arm安全其实就是学arm架构,学arm架构其实就是学习arm的异常和中断”,异常中断是领着你进入架构的入门,是让你变成系统软硬件架构师的必走之路。第三章:安全专题,这也是本视频最核心的东西。因为你无论买书还是看博客等,你都很难找到讲解安全的教程,这里就是有和无的区别。本人系统的整理的安全的知识,带领你快速入门。第四章:mmu专题,透过事务看本质的讲解,白话式的演讲。在所有模块中,mmu也算是相对较简单模块。相信人人听得懂,人人学得会。第五章:cache专题,一切追求实事求是,不人云亦云,一切知识点都有迹可循,推翻了网络的很多观念。在众多模块中,cache算是一个比较难的模块。了解了cache后,才能算真正了解系统的软硬件架构。第六章:虚拟化,本人不擅长,会啥就随便讲点啥。(以后学会了再来补)第七章:architecture,就是零散和零碎的系统架构知识,如exclusive、arch timer、reset、系统启动、SOC设计、AMBA/AXI/ACE、DSU、WFE/WFI这样的。第八章: 新增的ARMv9 CCA/RME安全架构专题第九章:主要放置一些直播课。# 课程收益1、知道我学习什么,我要怎么去学习,从此之后有了一个明确的学习路线。2、认识一些共同目标的人,相互讨论问题,共同进步。勤学、共学、助学。3、ARM不再神秘,SOC不在神秘,让您短期内就能cover住全局4、熟悉ARM Architecture架构知识5、熟悉SOC架构知识6、熟悉主流的系统软件框架7、熟悉各项硬件原理和机制,如异常中断、MMU、cache、TLB、VMSA、Trustzone6、深入了解当前的系统架构、软硬件架构,能够看懂这些大家,将来也能够自己设计。7、熟悉系统的启动流程、Secureboot等8、熟悉各类标准和规范9、能够进入芯片厂商干活、能够在非芯片产生成为技术担当。10、学习资料的获取方法,会看11500多页的ARM手册,会看数以百计的ARM各项参考手册。 本课程会持续更新。也希望通过本课程的学习,能够让大家的ARMv8/ARMv9开发技术能有质的飞越,能找到自己心仪的工作。在购买之前,也建议大家看一看第一章第一节的课程介绍。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夜流冰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值