读CCF神经网络压缩及加速的相关思考

指标数量级上的认识,CPU 10~100GFLOP/s的峰值性能, GPU为10TFLOP/s,功耗下限(嵌入式GPU) 10W, 而物联网极低功耗要求为1mW ~ 1W。
基于FPGA和ASIC的加速器设计可以分为两类,一类是将神经网络按层/模块对应硬化,主要在FPGA上实现,借助HLS等辅助编程;另一类是设计xPU,含指令集和编译器设计。

精巧的内存架构设计可为计算单元提供足够的数据,从而确保计算模型的流水线不会因为缺少数据而出现停顿或气泡,这是实现高效率的关键。为此,我们需要同时考虑片上和片外存储以设计合理的层次化存储架构

存储层次化设计真的不过时,各种方法预取数据、掩盖latency。
专用的神经网络加速器设计,如果想通用的加速不同的神经网络模型,是否自身就矛盾。亦或者说,这种针对边边角角的缝补,加速deep learning可以,换一个deeper or deepest learning的应用场景也可以,换成no learning也可以。如此看来,xPU是一种专用硬件的“通用”化。
循环展开不能全展,否则会出现利用率不足的问题,这一点让我类比想象到了coalesce以更高利用存储带宽,可能类比不合理。
像循环展开这种在NN之前便有的体系机构优化技术,NN诞生之后特有的优化技术有哪些?
Roofline模型细节不了解,是像Benchmark一类的代表性负载?还是特意针对访存和计算比率设计的没有实际应用意义的模型?
神经网络加速器设计相比其他体系结构设计来说,workload好找,优化空间更大,实验更易设计实现,属实相对容易发paper。

1 TOPs/W的斜虚线是FPGA和ASIC两种硬件平台的能效比的分水岭。因此,设计前期通常在FPGA平台上实现快速的功能验证和性能评估。为了实现更高的能效比,最终还是需要以ASIC的形式实现定制化的AI芯片。此外,我们还发现目前学术界在逐渐突破1000 TOPs/W的能效比上界,而工业界主流产品的能效比还处于10~100 TOPs/W之间。这10~100倍的能效比差距给超高能效AI芯片的实际落地带来了不少挑战。我们相信诸如混合精度、动态和结构化稀疏以及存内计算等技术将是下一代神经网络高效部署的关键性技术,而虚拟化[40]将是未来AI云计算的重要趋势。

Ref.

  1. 针对神经网络高效部署的软硬件协同优化
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值