nvdla学习笔记_NVDLA 深度学习推理编译器正式开源

本文介绍了NVIDIA开源的NVDLA深度学习推理编译器,该编译器为系统架构师和软件团队提供了完全开放的软硬件推理平台。NVDLA编译器优化执行图,最大化硬件利用率,降低数据移动,提升效率。通过编译器的层融合和内存平铺等优化,能在不同规模的NVDLA设计中实现高性能和低功耗。用户可在AWS上使用RISC-V和FireSim进行设计,并通过NVDLA教程运行YOLOv3进行对象检测。
摘要由CSDN通过智能技术生成

为深度学习设计新的定制硬件加速器显然很受欢迎,但是用一种新的设计实现最先进的性能和效率是一个复杂和具有挑战性的问题。

两年前,英伟达公司为英伟达深度学习加速器(NVDLA)的硬件设计打开了源代码,以帮助推动在定制硬件设计中采用高效的人工智能推理。同样的NVDLA也发布在NVIDIA Jetson AGX Xavier开发工具包中,它为AI提供了7.9 TOPS/W的最佳峰值效率。随着NVDLA在GitHub上的优化编译器的开源发布,系统架构师和软件团队现在已经拥有了世界上第一个完全开放的软硬件推理平台的完整源代码。

在本文中,我们将解释网络图形编译器在实现专用硬件加速器的电源效率这一关键目标中所扮演的角色,并向您展示如何通过在云中构建和运行您自己的自定义NVDLA软件和硬件设计开始。

NVDLA框图

NVDLA编译器的性能和效率

编译器是NVDLA软件栈的关键组件。它生成优化的执行图,将预先训练的神经网络模型层中定义的任务映射到NVDLA中的各个执行单元。它在最大限度地利用计算硬件的同时,尽可能地减少数据移动。

NVDLA核心硬件有六个专门的硬件单元,它们可以同时调度,也可以在流水线配置中调度。它还具有小型和大型硬件配置文件。大的配置文件包括先进的功能,如芯片上的SRAM接口和附加一个微控制器的能力。你可以在这里找到更多关于NVDLA的资料。硬件架构是模块化的,它的设计是可伸缩的,从小型嵌入式物联网设计到使用NVDLA单元阵列的大型数据中心类芯片。编译器可以根据各种选择的因素进行调优:NVDLA硬件配置、系统的CPU和内存控制器配置,以及应用程序的自定义神经网络用例(如果需要的话)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值