边缘AI是内存技术发展的催化剂

来源:北京物联网智能技术应用协会

  人工智能的崛起,对内存系统提出了一些新要求。今天的内存技术能够满足AI时代下的新应用吗?从长远来看,新兴内存技术对边缘 AI有什么前景?

  首先要意识到的是“边缘AI”应用没有特定标准;“边缘”在其最广泛的解释中涵盖了云以外所有支持人工智能的电子系统。这可能包括“基于端(Near edge)”,通常涵盖企业数据中心和本地服务器。

  自动驾驶计算机视觉、制造网关设备执行AI推理、检查生产线上产品的缺陷、公用电线杆上的5G“边缘盒”、为交通管理等智能城市应用分析视频流以及5G基础设施在复杂但高效的波束成形算法的边缘使用人工智能这些都是最典型的应用。

  内存技术的进步反映了数据爆炸和越来越需要将处理移到更接近数据的地方。内存和存储技术处于并行的轨道上,更多的工作负载在内存中处理。

  在“基于5G MEC(Far edge)”上,人工智能被支持在手机(比如Snapchat过滤器)、设备的语音控制和工厂物联网传感器节点上,在将结果发送到另一个网关设备之前进行传感器融合。

  内存在边缘AI系统中的作用指的是存储神经网络权重、模型代码、输入数据和中间激活——对于大多数AI应用来说是一样的。为了保持效率,必须加快工作负载以最大限度地提高AI算力,因此对容量和带宽的需求通常很高。然而,具体应用的要求是多种多样的,可能包括尺寸、功耗、低电压运行、可靠性、热/冷却考虑和成本。


边缘数据中心

  边缘数据中心是一个关键的边缘市场。用例包括医疗成像、研究金融算法,在这些领域,由于隐私问题,我们无法将数据上传到云上。自动驾驶亦是如此,因为等待时间不能过长。

  这些系统使用的内存与其他应用程序中的服务器相同。

  智能模块化技术的解决方案架构师Pekon Gupta表示:“在人工智能算法正在开发的训练应用中,使用低延迟DRAM用于快速的字节级作为主要内存是很重要的, 大数据集需要高容量RDIMM或LRDIMM。NVDIMM是系统加速所需要-我们使用它们来写缓存,而不是较慢的SSD。

  将计算节点定位到接近终端用户的位置是电信运营商所采用的方法。

  Gupta:“我们看到了一种趋势,那就是让这些电信公司边缘服务器更有能力运行复杂的算法。”因此,“服务提供商使用RDIMM、LRDIMM等设备和NVDIMM等高可用持久内存,为这些边缘服务器添加更多内存和处理能力。”

  Gupta认为英特尔的3D-Xpoint非易失性内存Optane,它的性能介于DRAM和Flash之间,是服务器AI应用的一个很好的解决方案。

  “(傲腾)Optane DIMM和NVDIMM都被用作人工智能加速器,” NVDIMM提供了非常低的延迟分层,缓存,写入缓冲和元数据存储能力的AI应用程序加速。傲腾数据中心DIMM可用于内存中的数据库加速,其中数百GB到TB的持久性内存与DRAM结合使用。尽管它们都是AI/ML加速应用程序的持久内存解决方案,但它们有不同且独立的用例。”

  英特尔傲腾的产品营销总监Kristie Mann介绍, 傲腾正在尝试获得在服务器AI领域的应用。

  Mann:“我们的客户现在已经在使用傲腾persistent memory来为他们的人工智能应用提供能量。”“它们成功推动了电子商务、视频推荐引擎和实时财务分析应用。由于可用容量的增加,我们看到了向内存应用的转变。”

  自2012年以来,英特尔便一直在开发这项技术——也就是如今我们所熟知的英特尔傲腾傲腾技术。傲腾技术在多个方面实现了技术进步,并最终成为了一种“非易失性内存”,并实现了几乎与易失性工作内存(动态随机存取存储器DRAM)一样快的速度,且同时能在断电时保留数据。相比之下,DRAM只能在通电状态下保持“正常运转”。

  DRAM的高价格正使得傲腾成为一个更有吸引力的替代品。一台服务器配有两个Intel Xeon可伸缩处理器,加上傲腾持久内存,可以为需要数据的应用程序提供高达6TB的内存。尽管傲腾在速度上无法完全与DRAM匹敌,但它具有“持久性”的优势。也就是说,傲腾在无需通电的情况下即可保持数据的存续状态。持久性一般与磁性相关,硬盘驱动器和磁带利用磁场,将位置设置为1或0。

  Mann:“DRAM仍是最受欢迎的,但从成本和容量的角度来看,它有其局限性,”“由于成本、容量和性能优势,如Optane persistent memory和Optane SSD这些新内存和存储技术正在占领DRAM的市场。”Optane SSD是特别强大的缓存HDD和NAND SSD数据,可以持续提供人工智能应用数据。

  她补充说,与目前还不完全成熟或可扩展的其他新兴存储器相比,Optane也有一定优势。

  英特尔Optane 200系列模块,Optane现在已经被用来为人工智能应用提供持续动力。

GPU提速

  对于高端的边缘数据中心和边缘服务器应用程序,像GPU这样的人工智能计算加速器正在获得市场青睐。和DRAM一样,这里的内存包括GDDR和DDR SDRAM,提供高带宽GPU,HBM,以及一种全新的堆叠技术,它将多个内存模放在与GPU本身的封装中。

  两者都是为人工智能应用程序所需的极高的内存带宽而设计。

  HBM2E和GDDR6助力新一轮人工智能应用浪潮

  鉴于AI/ML的需求分流的特性,内存的选择取决于应用:训练还是推理。HBM2E和GDDR6这两种高带宽内存,都可以起到至关重要的作用。

  相比GDDR,HBM技术的显存在带宽、性能及能效上遥遥领先, JEDEC近期推出了HBM2e规范,三星抢先推出容量可达96GB的HBM2e显存。根据规范,HBM2存储标准JESD235C将针脚带宽提高到3.2Gbps,之前的两版HBMe分别是2Gbps、2.4Gbps速率,相比之下HBM2e速率提升25%到60%。

  对于要求最高的AI模型训练,HBM2E提供3.6 Gbps和460 GB/s的内存带宽(两个HBM2E堆栈提供接近1 TB/s的内存带宽)。这是可用的性能最高的内存之一,功耗最低。相比GDDR显存,HBM技术的显存在带宽、性能及能效上遥遥领先,前不久JEDEC又推出了HBM2e规范,三星抢先推出容量可达96GB的HBM2e显存。GPU领导者Nvidia在其所有数据中心产品中都使用了HBM。

  Rambus IP核产品营销高级总监Frank Ferro表示,GDDR6也被用于AI推理。GDDR6能够满足边缘 AI推理系统在速度、成本和功率方面的要求。例如,GDDR6可以提供18 Gbps和72 GB/s的带宽。拥有4个GDDR6 DRAM可以提供接近300GB/s的内存带宽。此外,GDDR6亦可用于ADAS应用。

  Nvidia将GDDR6与LPDDR进行比较,对于Jetson AGX Xavier和Jetson Nano等大多数非数据中心边缘解决方案的方法, LPDDR更适用于边缘或端点的低成本AI推断。

  “LPDDR的带宽对于LPDDR4被限制在4.2 Gbps,对于LPDDR5被限制在6.4 Gbps。”“随着内存带宽需求的增加,我们将看到越来越多的设计使用GDDR6。这种内存带宽的差距有助于推动GDDR6的需求。”

  尽管这是为了配合GPU而设计,但其他处理加速器可以利用GDDR的带宽。Ferro着重介绍了Achronix Speedster7t,这是一款基于FPGA的人工智能加速器,用于推理和一些低端训练。

  Ferro:“在边缘人工智能应用中,HBM和GDDR内存都有空间,”“HBM”将继续在边缘应用中使用。HBM虽然拥有所有优势,但由于3D技术和2.5D制造,成本仍然很高。考虑到这一点,GDDR6是成本和性能之间的一个很好的平衡,特别是对于网络中的人工智能推理。”

  总的来说,训练和推理有其独特的应用需求,可以通过定制内存解决方案来支持。HBM2E是AI训练的理想选择,GDDR6是AI推理的理想选择。设计师可以通过与Rambus合作来克服这些架构中固有的设计挑战,从而实现这些高性能内存的长处。

  HBM则用于Graphcore IPU等高性能数据中心AI专用集成电路中。虽然它的性能一流,但在某些应用程序中,它的价格可能过高。

  但问题是,处理器算力提高了10倍,内存怎样提高10倍的性能呢?如果用传统的DDR4、DDR5、HBM、HBM1、HBM2、HBM3内存等,基本上每代只能约有30%、40%的提升,这是远远不够的。

  高通是使用DRAM来解决高数据中心内存方案的公司之一。其Cloud AI 100的目标是在边缘数据中心、5G“边缘盒”、ADAS/自动驾驶和5G基础设施方面加速AI推理。

  Cloud AI 100,采用7nm工艺,性能比目前业界最先进的 AI 推理解决方案高出 10 倍以上。Cloud AI 100 集成了一系列开发工具,包括编译器、调试器、分析器、监视器、服务、芯片调试器和数字转换器。

  高通计算和边缘云部门总经理Keith Kressin表示:“使用标准DRAM而不是HBM之类的东西对我们来说很重要,因为我们希望降低材料成本。”“我们的客户想要做所有的芯片,还要交叉卡。但他们都希望保持合理的成本,而不是购买HBM,甚至更新的内存。”

  “在训练中,”你会有跨越(多个芯片)的大型模型,但为了推理,很多模型都更加本地化。”

Far Edge[1]

  在数据中心之外,边缘AI系统通常侧重于推理,但也有一些例外,比如联邦学习和其他增量式训练技术。

  一些对功率敏感的应用程序人工智能加速器使用内存来进行人工智能处理。推理是基于多维矩阵乘法的,它有助于使用用于执行计算的存储单元阵列的模拟计算技术。利用这种技术,Syntiant的设备被设计为消费类电子产品的语音控制,而Gyrfalcon的设备被设计成智能手机,用于处理相机效果的推断。

  除了内存中的计算设备,专用集成电路在特定的边缘领域也很流行,特别是在低功耗和超低功耗系统。专用集成电路的内存系统使用几种内存类型的组合。分布式本地SRAM是最快最节能的,但不是非常节能。单片SRAM在芯片上运行效率更高,但会带来性能瓶颈。芯片外DRAM更便宜,但耗电更大。

  简单来讲,SRAM比DRAM更快,但也贵很多。SRAM用来作为高速缓存存储器,既可以在CPU上,也可以不在CPU上。DRAM用来作为主存以及图形系统的帧缓冲区。一个桌面系统的SRAM不会超过几兆字节,但是DRAM却有几百兆字节或几千兆字节。 只要有电,SRAM就是持续的,与DRAM不同,它不需要持续刷新。SRAM的存取比DRAM快。SRAM对诸如光和电噪音这样的干扰不敏感,代价是SRAM单元比DRAM单元使用更多的晶体管,因而没那么密集,而且更贵,功耗更大。

  Flex Logix首席执行官Geoff Tate表示,要在SRAM和芯片外DRAM之间找到合适的平衡,需要一系列的性能模拟。其目的是最大限度地提高每美元的推理吞吐量——模具尺寸、包装成本和使用的DRAM数量的函数。

  Geoff Tate:“最佳点是单个x32 LPDDR4 DRAM;4K MAC(最高7.5台,933MHz);大约10MB的SRAM,”“SRAM速度很快,但与DRAM相比价格昂贵。我们使用台积电的16nm制程技术,1MB的SRAM大约需要1.1mm2。“我们的InferX X1只有54mm2,得益于我们的架构,DRAM访问在很大程度上与计算重叠所以没有性能组成。”对于大型模型来说,拥有一个DRAM是一个合适的权衡,至少对我们的架构来说是这样。

  Flex Logix芯片将用于实时操作的边缘 AI推理应用,包括分析低延迟的流媒体视频、ADAS系统、安全镜头分析、医疗成像和质量保证/检查应用。

  在这些应用程序中,什么样的DRAM会和InferX X1一起出现?

  “我们认为LPDDR将最受欢迎,一个DRAM提供超过10GB/秒的带宽……但仍有足够的比特存储权重/中间激活,”“任何其他DRAM都需要更多的芯片和接口,需要购买更多未使用的比特。”

新兴内存技术能否崛起?

  他补充说:“使用任何新兴内存时,晶圆成本都大幅上升,而SRAM是‘免费’的,除了硅区域。”“随着经济形势的变化,临界点也可能发生变化,但它将在更远处发生。”

  其他内存类型仍然为人工智能应用提供了未来的可能性。

  磁阻存储器(MRAM)通过施加的电压控制磁体的方向来存储每一位数据。如果电压低于反转位所需的电压,则只有一个位将反转的可能。由于MRAM的随机性是不需要的,因此MRAM是用更高的电压驱动的,以防止其发生。不过,一些人工智能应用程序可以利用这种固有的随机性(可以认为是随机选择或生成数据的过程)。

  通过实验我们已经将MRAM的随机能力应用到Gyrfalcon的设备上,这项技术可以将所有重量和激活的精度降低到1位。这是用来大大减少计算和功率要求的远边缘应用。可能会在精确度上做出取舍,这取决于网络如何被重新训练。一般来说,尽管精度降低了,神经网络仍能可靠地工作。

  Spin Memory的产品副总裁Andy Walker:“二值化神经网络(BNN)[2]的独特之处在于,即使数字是-1或+1的确定性降低了,它们也能可靠地工作。”“我们发现这样的BNN仍然可以在高精确度下运行,因为这种确定性是通过引入被错误写入的内存位的‘误码率’而降低的。”

  在低电压水平下,MRAM可以自然地以可控的方式引入误码率,在进一步降低功率要求的同时保持准确性。关键是在最低的电压和最短的时间内确定最佳的准确度这意味着最高的能源效率。

  虽然这项技术也适用于更高精度的神经网络,但它特别适用于BNN,因为MRAM细胞有两种状态,与BNN中的二进制状态相匹配。

  Walker表示,在边缘使用MRAM是另一个潜在的应用。

  “对于边缘 AI来说,MRAM能够在不需要高性能精度的应用中在较低的电压下运行,但是提高能源效率和内存耐久性是非常重要的。”此外,MRAM固有的非易变性允许在不通电的情况下进行数据保存。

  “其中,这种新兴存储器可以同时作为嵌入式闪存和SRAM的替换,节省了芯片上的面积,并避免了SRAM固有的静态功耗。”

  虽然Spin Memory的MRAM即将被商用,但BNN的具体实现将在基本MRAM单元的变体上表现良好。因此,目前还处于研究阶段。

神经拟态ReRAM

  边缘 AI应用程序的另一个新兴内存是可变电阻式随机存取存储器ReRAM。ReRAM能够仿真大脑为人工智能(AI)应用创建神经网络,因此激发了人们对新兴内存的浓厚兴趣。实际上,人们讨论神经图(neural map)已经很长时间了,但是还没人真正实现它并将其投入生产。

  米兰理工大学最近使用Weebit Nano的氧化硅(SiOx) ReRAM技术进行的研究显示了神经形态计算的前景。ReRAM为神经网络硬件增加了一个维度的可塑性;也就是说,它可以随着条件的变化而进化——这在神经拟态计算中是一种关键的特性。

  目前的神经网络无法在不忘记它们已经训练过的任务的情况下学习,而大脑却可以很容易做到这一点。用人工智能的术语来说,这是“无监督学习”,算法在没有标签的数据集上进行推理,在数据中寻找自己的模式。最终的结果可能是重新启用的边缘人工智能系统,它们可以就地学习新的任务,并适应周围的环境。

  总的来说,内存制造商正在引入能够提供人工智能应用所需的速度和带宽的技术。各种各样的存储器,无论是在同一芯片上的AI计算,在同一封装里还是在单独的模块,可用于众多边缘AI应用。

  虽然边缘 AI的内存系统的确切性质取决于应用程序,但GDDR、HBM和Optane在数据中心很受欢迎,而LPDDR在端点应用程序上与片上SRAM将会继续竞争。

  “新兴存数技术”将其新颖的特性用于研究,旨在推动神经网络超越目前硬件的能力,这些都有助于实现未来节能、ML系统的发展。

  延伸阅读——服务器UDIMM、LRDIMM、RDIMM三种内存区别

  在服务器领域,目前使用的内存条类型(DIMM)主要有三种:UDIMM、RDIMM和LRDIMM。

UDIMM

  UDIMM:全称Unbuffered DIMM,即无缓冲双列直插内存模块,指地址和控制信号不经缓冲器,无需做任何时序调整,直接到达DIMM上的DRAM芯片。UDIMM由于在CPU和内存之间没有任何缓存,因此同频率下延迟较小。

  数据从CPU传到每个内存颗粒时,UDIMM需保证CPU到每个内存颗粒之间的传输距离相等,这样并行传输才有效,而这需要较高的制造工艺,因此UDIMM在容量和频率上都较低。

服务器内存UDIMM与RDIMM的差别

RDIMM

  RDIMM:全称Registered DIMM,带寄存器的双列直插内存模块。RDIMM在内存条上加了一个寄存器进行传输,其位于CPU和内存颗粒之间,既减少了并行传输的距离,又保证并行传输的有效性。由于寄存器效率很高,因此相比UDIMM,RDIMM的容量和频率更容易提高。

LRDIMM

  LRDIMM:全称Load Reduced DIMM,低负载双列直插内存模块。相比RDIMM,LRDIMM并未使用复杂寄存器,只是简单缓冲,缓冲降低了下层主板上的电力负载,但对内存性能几乎无影响。

  此外,LRDIMM内存将RDIMM内存上的Register芯片改为iMB(isolation Memory Buffer)内存隔离缓冲芯片,直接好处就是降低了内存总线负载,进一步提升内存支持容量。

服务器内存UDIMM与RDIMM的差别

  [1] 不同行业推出的边缘计算在与用户的位置距离上也有区别,根据距离用户的远近,Gartner将边缘计算分为基于端(Near Edge)和基于5G MEC(Far Edge)两种。电信运营商需要在移动基站附近接入无线网络。从电信核心网角度看,基站在最远位置,所以无线接入网络(RAN)这层称作远边缘(Far Edge)。两种模式采用不同的开源框架,有着不同的底层实现架构,从商业视角考虑,Far Edge能够实现更深刻的边缘赋能,更具发展潜力。

  [2] 二值化神经网络,将权重和激活函数转化为二值,比如+1或者-1。显著的区别就是在全精度神经网络中,输入和权重是点乘(dot product)操作,而二值神经网络中用按位异或非(bitwise XNOR)来实现的。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

  • 0
    点赞
  • 0
    评论
  • 1
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值