AMD(FPGA) 技术大会2024深圳站

1:概要

时间:2024.07.23 全天

地点:深圳 万恰酒店五楼

主题内容:主要还是Versal 二代的推介吧,还有就是针对AIE的开发做了一些介绍,和去年的内容对比,没有什么惊喜。

2:会议议程:

3:会场展台

3.1:AMD官方展台

3.1.1:Versal Premium 800G 以太网

高带宽:800Gbps的总带宽。用于大规模数据传输的场景:如:数据中心互联,高性能计算(HPC),大数据分析(金融服务)。这种大规模的集群计算环境。

采用 Versal Preminum系列的SoC芯片(XCVP1202),A72,R5 2 Arm处理器,3KK 逻辑单元,400个AIE,超过9000个DSP单元。

高速I/O 112G 支持(并行8个,可以达到 800G)

3.1.2:AI引擎的STAP算法

STAP算法,全称Space-Time Adaptive Processing(时空自适应处理),是一种信号处理技术,广泛应用于雷达、声纳和通信系统中,尤其是在抗干扰和目标检测方面。它结合了空域和时域的信号处理,能够有效地提高信号的信噪比(SNR),从而更好地检测和分辨目标。

STAP涉及大量的多维数据处理,需要进行复杂的矩阵运算。雷达需要低延时。AIE比较擅长DSP可以完成的运算。

采用Versal AI Core VCK190,大量使用 AIE。 

3.1.3:Vitis Model Composer 助力加速开发:MATLAB 和 Simulink 中基于模型的设计

将Vitis Model Composer 集成在MATLAB和Sumulink环境中,利用图形化界面和仿真功能进行硬件设计。

3.1.4:Versal AI 引擎-ML推理

Vitis AI 支持的 Model 不多,很多通用模型都不支持。支持的模型大都需要 AIE-ML 版本的芯片。

感觉在这块儿,AMD没怎么维护和发展。在后面的演讲中,问过AMD专家,感觉AMD基本已经放弃原来在AI上的通用战略,在推理上也基本完全无法与Nvida抗衡。

3.1.5:AMD MicroBlaze V RSIC-V 处理器TMR演示

用这个软核可以在小批量场景使用,TMR是在军事/航天等对安全,可靠性要求高的场景。

3.1.6:AMD采用Info封装的成本优化型解决方案

TSMC(Integrated Fan-Out) 提供的先进的封装技术,可以实现与外界高密度互联,封装更簿,传输性能更好,散热性更好。没有基板,更小的封装尺寸。

3.1.7:Versal HB 性能监控器

应用在HPC,机器学习,通信场景,实时监控和管理Versal HB 平台的性能。

3.1.8:AMD Versal AI Core VCK190: PL 电源管理

AMD Versal AI Core VCK190 开发板中的 PL 电源管理系统通过一系列优化策略和工具,提供了高效、灵活的电源管理解决方案。无论是高性能计算、人工智能应用,还是嵌入式系统,PL 电源管理都能帮助开发者优化系统性能、降低功耗、提高可靠性和延长设备寿命。通过合理使用动态电压和频率调节、部分重配置、电源域划分和时钟门控等技术,VCK190 开发板在实现高性能计算的同时,也实现了能效优化。

3.1.9:Versal 可编程片上网络(NoC)的RTL

Vivado如何针对NoC进行RTL编程

3.1.10:Vitis Unified IDE 嵌入式开发

Vitis提供了统一的开发IDE,这个其实去年就有了。

3.1.11:Arm Mail GPU: 为在 AMD Kria SOM经过认证的Ubuntu上执行图形渲染提供支持。

Arm Mali GPUAMD Kria SOM 上运行,并且这些模块已经通过认证,可以运行 Ubuntu 操作系统。这种组合为嵌入式系统中的图形渲染任务提供了支持。一种组合解决方案。

3.2:合作伙伴展台

3.2.1:芯驿电子科技

Alinx 是一家车载智能产品和FPGA技术方案公司,专注于车载智能产品,FPGA产品方案定制。

  • 高端医疗影像解决方案

FPGA + GPU 异架构,实现高清高速,AI边缘计算处理诊断,手术辅助。

医疗核心板:AMDVersal AI Edge ,AMD Zynq,AMD Zynq UltraScale + MPSoC,

          另外,也有紫光同创核心板。

  • 内窥镜及手术机器人

内窥镜处理:图像增强(比如:提高分辨率和清晰度),图像压缩传输(方便快速传输),确定低延时,高质量的图像传输。

手术机器人:运动控制算法,传感器的数据并行预处理。

  • 人工智能识别

主要针对目标检测模型的卷积神经网络的实现。

  • 自动驾驶硬件在环仿真HIL解决方案

是一个Linux工作站,Intel 至强CPU,16G DDR4,1TB SSD存储,GTX3090双卡GPU,PCIe插槽。FPGA主要还是完成数据的传输,协议转换,数据压缩。

  • AUMO智能车载

汽车电子后视镜CMS解决方案。图像处理,解决时间延迟的问题。

3.2.2:思尔芯

一家数字EDA供应商,为客户提供架构设计,软硬件仿真,原型验证,数字调试,EDA云等工具及服务。

  • 香山图形系统验证

基于AMD VU7SP,原型验证系统。支持 4,900万门的ASIC设计

3.2.3:北格逻辑

一家专业的FPGA应用加速方案提供商,IC前端设计服务商。

提供JPG2000浅压缩解决方案。

3.2.4:玄武科技

聚焦于FPGA及SoC的计算,网络,存储及数据采集,提供高性能高可靠的板卡级方案和数据中心互联的产品。致力于AI高性能计算硬件平台与数字底座的供应商。

3.2.5:安富利

AMD全球授权分销商。

  • 立体人脸检测和测距

  • AI-Sence 产品

集成了AI技术的传感器解决方案。

3.2.6:科通

知名的芯片应用设计和分销服务商,是AMD中国大陆地区授权分销商。

提供设计服务——电路器件选型,原理图/版图设计,物流支持。

形成工业平台整体方案,医疗平台整体方案。

4:主题演讲

4.1:AMD 官方演讲

4.1.1:整体介绍(合并后的整合)

讲解 Xilinx与AMD 合并的历史。介绍重点产品:DPU & SmartNIC

合并后关注 CPU,GPU,FPGA 如何协同,实际上将AIE技术应用到了CPU,半放弃了AI在FPGA中的应用。AIE 过渡到 AMD RyzenAI。

更加关注与TSMC合作(芯片工艺)

4.1.2:产品讲解

10个不同的行业:

低价/高效系列+Versal系列(将云端迁到边缘)

Versal Soc:HBM,AICore,AI Edge,

低功耗/低成本 系列 & AMD Zynq :

Vitis AI的使用

展示了AMD统一AI堆栈的整体架构,涵盖了从模型优化、开发工具到运行时环境的完整生态系统。它支持多种AI框架(如PyTorch、TensorFlow)、统一的开发和部署工具(如ONNX Runtime、Vitis AI)、以及通用的编译器和库API。该堆栈还依托于ROCm平台,提供强大的硬件支持,包括AMD的CPU、GPU和自适应SoC(Versal和Zynq)。通过这些工具和平台,开发者能够高效地开发、优化和部署AI模型,实现无缝的工作负载分区和高性能推理。AMD Unified AI Stack提供了一个全面的、优化的AI开发和部署平台,适用于各种AI应用场景,简化了从开发到部署的整个流程。

4.1.3:技术演讲

介绍AMD在AI领域的应用以及解决方案:

商业和企业:AMD EPYC,Ryzen Pro CPU。

智能工厂/智能零售/自驾/智慧城市/通信/:机器视觉,使用Versal 和 SoC

数字家庭:CPU,GPU,Versal,SoC

生命科学:SoC,生物分析,药物研发,医疗诊断

云数据中心:AMD EPYC 处理器,FPGA,GPU,AI推理,训练,自动化,数据处理……

AI驱动的三阶段:

一阶段:数据预处理——使用FPGA进行数据融合,针对各种传感器数据。

二阶段:AI推理——使用AI Engine 执行深度学习和机器学习算法。

三阶段:后处理——使用CPU,完成控制和决策逻辑。

客户最关注——连接(传感器,物联网设备,通信设备),边缘智能,运算(AI和高级运算),高密集/高带宽.

二代Versal架构——重点突出了在计算性能、安全性、连接性、内存带宽、AI能力、视频处理和图形处理等方面的显著提升。这些改进使得Versal系列SoCs在处理复杂计算任务、实现高级图像和视频处理以及提供高效AI推理方面具备更强的能力,适用于多种高性能和关键任务应用场景。

4.2:合作商演讲

4.2.1:芯驿电子科技

Alinx——FPGA的开发板,SOM板,

AUMO——车载电子产品设计

  提供仿真平台

4.2.2:北格逻辑

JPEG2000的编解码——

4.2.3:玄武科技

4.2.4:思尔芯

国产EDA,数字前端布局。主要是芯片验证。

加速超大规模芯片开发。

5:分会场演讲

5.1:AI引擎概述和架构基础

问题:对于AIE要做深度学习,比如要实现Transformer的架构,发现不支持Transformer架构的模型。

但是在Ryzen的AIE确是可以的。

AIEngine 上实现Transformer是不可以的,但是在AMD 的CPU上是可以的。为什么?

AIE 底层来说还是 DSP,提供了库函数。AIE 兼顾了数字处理和

深度学习,也就是将模型拆解出来,然后直接提供底层的算子。

PL 的compiler 和 AIE的编译,两者不相关,没有时序的问题。

可以使用HLS来进行开发。PL才会有时序问题。

AMD在AI引擎优化方面的不同策略。AIE适用于一般的AI推理任务,而AIE-ML则针对机器学习和深度学习任务进行了特别优化,提供更高的计算能力和效率。

实际上AIE只能使用C++编码,自行编写算法。门槛很高。AIE-ML可以使用Vitis-AI,基于模型编程。

使用适应性数据流图(ADF)和AI引擎内核为DSP应用进行编程。通过使用C/C++编写内核函数,定义输入输出绑定,并通过编译优化在AI引擎上运行多个内核,可以实现高效的信号处理和数据处理。AI引擎结合可编程逻辑(PL),提供了强大的计算能力和灵活性,适用于各种复杂的DSP应用。

AMD的AI引擎架构在高性能DSP应用中具有显著优势:

信号处理,机器学习,嵌入式系统,

5.2:常用DSP功能的AI引擎基准测试:FIR,FFT和通用短阵乘法(GeMM)

FIR(有限脉冲响应滤波器)和FFT(快速傅里叶变换)基准测试:

AI引擎在高性能DSP(数字信号处理)功能中的优势:

AI引擎在高性能DSP功能中的优势

AIE在高性能DSP功能(如FIR和FFT)中能够带来资源和动态功耗方面的优势。使用AI引擎可以更高效地利用硬件资源,并降低运行过程中的动态功耗,从而提升整体性能和能效。

AI引擎在特定数据类型中的最佳表现

AIE在处理16位和32位数据类型时表现最佳。对于这些常见的数据类型,AI引擎经过优化能够提供最佳的性能表现和处理效率。

高点FFT的优化架构

对于高点FFT,最优的架构是AI引擎和可编程逻辑的结合。在处理复杂的高点FFT时,将AI引擎和可编程逻辑结合使用,可以充分发挥两者的优势,实现更高效的计算和资源利用。

5.3:Design with AIE Engine

AIE-DSP设计流程的各个步骤:

映射系统功能(Map the system into functions)

将系统功能映射到将在AIE(AI引擎)和PL(可编程逻辑)中实现的功能。这一步骤涉及确定哪些功能将在AIE中实现,哪些功能将在PL中实现,以便有效利用两者的优势。

实现功能(Implement the functions)

在AIE Tile Array中实现功能,使用库函数、AIE API和内在编码(intrinsic coding)的组合。使用可用的库和API来编写和实现具体的功能,确保这些功能可以在AIE的计算单元上高效运行。

实例化和互连(Instantiate and interconnect)

实例化并互连多个AIE tiles,使用图形化代码(GRAPH-C code)。将多个AIE计算单元实例化并互连,形成一个完整的计算网络,确保各个单元之间的数据流通顺畅。

编译和仿真(Compile & Simulate)

编译和仿真AIE和AIE+PL的设计。编译整个设计,并进行仿真,以验证设计的功能和性能,确保其满足预期的要求。

5.4: AIE Engine Program into SystemDesigns.

包含AI引擎的AMD Versal™系统的架构,平台部分和AI引擎与可编程逻辑子系统的组成和开发流程。通过使用AMD的Vivado™ Design Suite和Vitis™软件平台,硬件团队和算法团队可以分别开发和优化系统的基础硬件和AI计算功能,从而实现高效、灵活和可扩展的计算平台,满足各种高性能应用的需求。

利用PL可编程+AIE来结合实现。

5.5:Developing with Vitis Model

开发步骤:

1:使用verilog进行设计。

2:使用仿真工具进行功能验证。

3:分析找出潜在问题,进行优化。

4:在硬件上验证。

5:最终导出,装备生产和进一步开发。

大概整理了一下资料,如上。

  • 9
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值