AMD(FPGA) 技术大会2024深圳站

最新推荐文章于 2024-09-02 15:07:41 发布

tiger119

最新推荐文章于 2024-09-02 15:07:41 发布

阅读量673

点赞数 9

文章标签： fpga开发 fpga 人工智能神经网络机器学习

本文链接：https://blog.csdn.net/tiger119/article/details/140835260

版权

1：概要

时间：2024.07.23 全天

地点：深圳万恰酒店五楼

主题内容：主要还是Versal 二代的推介吧，还有就是针对AIE的开发做了一些介绍，和去年的内容对比，没有什么惊喜。

2：会议议程：

3：会场展台

3.1：AMD官方展台

3.1.1：Versal Premium 800G 以太网

高带宽：800Gbps的总带宽。用于大规模数据传输的场景：如：数据中心互联，高性能计算（HPC），大数据分析（金融服务）。这种大规模的集群计算环境。

采用 Versal Preminum系列的SoC芯片（XCVP1202)，A72，R5 2 Arm处理器，3KK 逻辑单元，400个AIE，超过9000个DSP单元。

高速I/O 112G 支持（并行8个，可以达到 800G）

3.1.2：AI引擎的STAP算法

STAP算法，全称Space-Time Adaptive Processing（时空自适应处理），是一种信号处理技术，广泛应用于雷达、声纳和通信系统中，尤其是在抗干扰和目标检测方面。它结合了空域和时域的信号处理，能够有效地提高信号的信噪比（SNR），从而更好地检测和分辨目标。

STAP涉及大量的多维数据处理，需要进行复杂的矩阵运算。雷达需要低延时。AIE比较擅长DSP可以完成的运算。

采用Versal AI Core VCK190，大量使用 AIE。

3.1.3：Vitis Model Composer 助力加速开发：MATLAB 和 Simulink 中基于模型的设计

将Vitis Model Composer 集成在MATLAB和Sumulink环境中，利用图形化界面和仿真功能进行硬件设计。

3.1.4：Versal AI 引擎-ML推理

Vitis AI 支持的 Model 不多，很多通用模型都不支持。支持的模型大都需要 AIE-ML 版本的芯片。

感觉在这块儿，AMD没怎么维护和发展。在后面的演讲中，问过AMD专家，感觉AMD基本已经放弃原来在AI上的通用战略，在推理上也基本完全无法与Nvida抗衡。

3.1.5：AMD MicroBlaze V RSIC-V 处理器TMR演示

用这个软核可以在小批量场景使用，TMR是在军事/航天等对安全，可靠性要求高的场景。

3.1.6：AMD采用Info封装的成本优化型解决方案

TSMC（Integrated Fan-Out) 提供的先进的封装技术，可以实现与外界高密度互联，封装更簿，传输性能更好，散热性更好。没有基板，更小的封装尺寸。

3.1.7：Versal HB 性能监控器

应用在HPC，机器学习，通信场景，实时监控和管理Versal HB 平台的性能。

3.1.8：AMD Versal AI Core VCK190: PL 电源管理

AMD Versal AI Core VCK190 开发板中的 PL 电源管理系统通过一系列优化策略和工具，提供了高效、灵活的电源管理解决方案。无论是高性能计算、人工智能应用，还是嵌入式系统，PL 电源管理都能帮助开发者优化系统性能、降低功耗、提高可靠性和延长设备寿命。通过合理使用动态电压和频率调节、部分重配置、电源域划分和时钟门控等技术，VCK190 开发板在实现高性能计算的同时，也实现了能效优化。

3.1.9：Versal 可编程片上网络（NoC）的RTL

Vivado如何针对NoC进行RTL编程

3.1.10：Vitis Unified IDE 嵌入式开发

Vitis提供了统一的开发IDE，这个其实去年就有了。

3.1.11：Arm Mail GPU: 为在 AMD Kria SOM经过认证的Ubuntu上执行图形渲染提供支持。

Arm Mali GPU 在 AMD Kria SOM 上运行，并且这些模块已经通过认证，可以运行 Ubuntu 操作系统。这种组合为嵌入式系统中的图形渲染任务提供了支持。一种组合解决方案。

3.2：合作伙伴展台

3.2.1：芯驿电子科技

Alinx 是一家车载智能产品和FPGA技术方案公司，专注于车载智能产品，FPGA产品方案定制。

高端医疗影像解决方案

FPGA + GPU 异架构，实现高清高速，AI边缘计算处理诊断，手术辅助。

医疗核心板：AMDVersal AI Edge ，AMD Zynq，AMD Zynq UltraScale + MPSoC，

另外，也有紫光同创核心板。

内窥镜及手术机器人

内窥镜处理：图像增强（比如：提高分辨率和清晰度），图像压缩传输（方便快速传输），确定低延时，高质量的图像传输。

手术机器人：运动控制算法，传感器的数据并行预处理。

人工智能识别

主要针对目标检测模型的卷积神经网络的实现。

自动驾驶硬件在环仿真HIL解决方案

是一个Linux工作站，Intel 至强CPU，16G DDR4，1TB SSD存储，GTX3090双卡GPU，PCIe插槽。FPGA主要还是完成数据的传输，协议转换，数据压缩。

AUMO智能车载

汽车电子后视镜CMS解决方案。图像处理，解决时间延迟的问题。

3.2.2：思尔芯

一家数字EDA供应商，为客户提供架构设计，软硬件仿真，原型验证，数字调试，EDA云等工具及服务。

香山图形系统验证

基于AMD VU7SP，原型验证系统。支持 4,900万门的ASIC设计

3.2.3：北格逻辑

一家专业的FPGA应用加速方案提供商，IC前端设计服务商。

提供JPG2000浅压缩解决方案。

3.2.4：玄武科技

聚焦于FPGA及SoC的计算，网络，存储及数据采集，提供高性能高可靠的板卡级方案和数据中心互联的产品。致力于AI高性能计算硬件平台与数字底座的供应商。

3.2.5：安富利

AMD全球授权分销商。

立体人脸检测和测距

AI-Sence 产品

集成了AI技术的传感器解决方案。

3.2.6：科通

知名的芯片应用设计和分销服务商，是AMD中国大陆地区授权分销商。

提供设计服务——电路器件选型，原理图/版图设计，物流支持。

形成工业平台整体方案，医疗平台整体方案。

4：主题演讲

4.1：AMD 官方演讲

4.1.1：整体介绍（合并后的整合）

讲解 Xilinx与AMD 合并的历史。介绍重点产品：DPU & SmartNIC

合并后关注 CPU,GPU,FPGA 如何协同，实际上将AIE技术应用到了CPU，半放弃了AI在FPGA中的应用。AIE 过渡到 AMD RyzenAI。

更加关注与TSMC合作（芯片工艺）

4.1.2：产品讲解

10个不同的行业：

低价/高效系列+Versal系列（将云端迁到边缘）

Versal Soc：HBM，AICore，AI Edge，

低功耗/低成本系列 & AMD Zynq :

Vitis AI的使用

展示了AMD统一AI堆栈的整体架构，涵盖了从模型优化、开发工具到运行时环境的完整生态系统。它支持多种AI框架（如PyTorch、TensorFlow）、统一的开发和部署工具（如ONNX Runtime、Vitis AI）、以及通用的编译器和库API。该堆栈还依托于ROCm平台，提供强大的硬件支持，包括AMD的CPU、GPU和自适应SoC（Versal和Zynq）。通过这些工具和平台，开发者能够高效地开发、优化和部署AI模型，实现无缝的工作负载分区和高性能推理。AMD Unified AI Stack提供了一个全面的、优化的AI开发和部署平台，适用于各种AI应用场景，简化了从开发到部署的整个流程。

4.1.3：技术演讲

介绍AMD在AI领域的应用以及解决方案：

商业和企业：AMD EPYC，Ryzen Pro CPU。

智能工厂/智能零售/自驾/智慧城市/通信/：机器视觉，使用Versal 和 SoC

数字家庭：CPU，GPU，Versal，SoC

生命科学：SoC，生物分析，药物研发，医疗诊断

云数据中心：AMD EPYC 处理器，FPGA，GPU，AI推理，训练，自动化，数据处理……

AI驱动的三阶段：

一阶段：数据预处理——使用FPGA进行数据融合，针对各种传感器数据。

二阶段：AI推理——使用AI Engine 执行深度学习和机器学习算法。

三阶段：后处理——使用CPU，完成控制和决策逻辑。

客户最关注——连接（传感器，物联网设备，通信设备），边缘智能，运算（AI和高级运算），高密集/高带宽.

二代Versal架构——重点突出了在计算性能、安全性、连接性、内存带宽、AI能力、视频处理和图形处理等方面的显著提升。这些改进使得Versal系列SoCs在处理复杂计算任务、实现高级图像和视频处理以及提供高效AI推理方面具备更强的能力，适用于多种高性能和关键任务应用场景。

4.2：合作商演讲

4.2.1：芯驿电子科技

Alinx——FPGA的开发板，SOM板，

AUMO——车载电子产品设计

提供仿真平台

4.2.2：北格逻辑

JPEG2000的编解码——

4.2.3：玄武科技

4.2.4：思尔芯

国产EDA，数字前端布局。主要是芯片验证。

加速超大规模芯片开发。

5：分会场演讲

5.1：AI引擎概述和架构基础

问题：对于AIE要做深度学习，比如要实现Transformer的架构，发现不支持Transformer架构的模型。

但是在Ryzen的AIE确是可以的。

AIEngine 上实现Transformer是不可以的，但是在AMD 的CPU上是可以的。为什么？

AIE 底层来说还是 DSP，提供了库函数。AIE 兼顾了数字处理和

深度学习，也就是将模型拆解出来，然后直接提供底层的算子。

PL 的compiler 和 AIE的编译，两者不相关，没有时序的问题。

可以使用HLS来进行开发。PL才会有时序问题。

AMD在AI引擎优化方面的不同策略。AIE适用于一般的AI推理任务，而AIE-ML则针对机器学习和深度学习任务进行了特别优化，提供更高的计算能力和效率。

实际上AIE只能使用C++编码，自行编写算法。门槛很高。AIE-ML可以使用Vitis-AI，基于模型编程。

使用适应性数据流图（ADF）和AI引擎内核为DSP应用进行编程。通过使用C/C++编写内核函数，定义输入输出绑定，并通过编译优化在AI引擎上运行多个内核，可以实现高效的信号处理和数据处理。AI引擎结合可编程逻辑（PL），提供了强大的计算能力和灵活性，适用于各种复杂的DSP应用。

AMD的AI引擎架构在高性能DSP应用中具有显著优势:

信号处理，机器学习，嵌入式系统，

5.2：常用DSP功能的AI引擎基准测试：FIR，FFT和通用短阵乘法（GeMM）

FIR（有限脉冲响应滤波器）和FFT（快速傅里叶变换）基准测试：

AI引擎在高性能DSP（数字信号处理）功能中的优势：

AI引擎在高性能DSP功能中的优势

AIE在高性能DSP功能（如FIR和FFT）中能够带来资源和动态功耗方面的优势。使用AI引擎可以更高效地利用硬件资源，并降低运行过程中的动态功耗，从而提升整体性能和能效。

AI引擎在特定数据类型中的最佳表现

AIE在处理16位和32位数据类型时表现最佳。对于这些常见的数据类型，AI引擎经过优化能够提供最佳的性能表现和处理效率。

高点FFT的优化架构

对于高点FFT，最优的架构是AI引擎和可编程逻辑的结合。在处理复杂的高点FFT时，将AI引擎和可编程逻辑结合使用，可以充分发挥两者的优势，实现更高效的计算和资源利用。

5.3：Design with AIE Engine

AIE-DSP设计流程的各个步骤：

映射系统功能（Map the system into functions）

将系统功能映射到将在AIE（AI引擎）和PL（可编程逻辑）中实现的功能。这一步骤涉及确定哪些功能将在AIE中实现，哪些功能将在PL中实现，以便有效利用两者的优势。

实现功能（Implement the functions）

在AIE Tile Array中实现功能，使用库函数、AIE API和内在编码（intrinsic coding）的组合。使用可用的库和API来编写和实现具体的功能，确保这些功能可以在AIE的计算单元上高效运行。

实例化和互连（Instantiate and interconnect）

实例化并互连多个AIE tiles，使用图形化代码（GRAPH-C code）。将多个AIE计算单元实例化并互连，形成一个完整的计算网络，确保各个单元之间的数据流通顺畅。

编译和仿真（Compile & Simulate）

编译和仿真AIE和AIE+PL的设计。编译整个设计，并进行仿真，以验证设计的功能和性能，确保其满足预期的要求。

5.4: AIE Engine Program into SystemDesigns.

包含AI引擎的AMD Versal™系统的架构，平台部分和AI引擎与可编程逻辑子系统的组成和开发流程。通过使用AMD的Vivado™ Design Suite和Vitis™软件平台，硬件团队和算法团队可以分别开发和优化系统的基础硬件和AI计算功能，从而实现高效、灵活和可扩展的计算平台，满足各种高性能应用的需求。