java高性能低功耗计算_实现低功耗的高性能深度学习

最新推荐文章于 2024-07-20 00:58:50 发布

莫白想

最新推荐文章于 2024-07-20 00:58:50 发布

阅读量230

点赞数

文章标签： java高性能低功耗计算

本文链接：https://blog.csdn.net/weixin_35721739/article/details/114932324

版权

对于大多数功耗敏感型的嵌入式视觉应用而言 , 搭载专用CNN引擎的视觉处理器可能是能否满足设计功耗预算的关键区别因素。选择专用CNN引擎似乎是一件理所应当的事情 , 但如何在芯片实现之前就测量出功耗呢？

我们假设一项应用的性能阈值对功耗预算有严格要求，例如电池供电的物联网智能家居或运行面部识别功能的移动设备。根据所需要的帧大小、帧速率和其他参数的不同，面部识别可能需要数百 GMAC/s的嵌入式视觉处理能力。ASIC或SoC设计现在必须寻找到一种嵌入式视觉解决方案 , 其能够在设计的功耗预算内执行该网络 – 比如说 , 功耗预算为几百mW。

遗憾的是，对不同的视觉处理器IP进行比较并不是一件简单的事情。这些刚刚崭露头角(bleeding edge)的 IP解决方案通常还没有形成芯片，而且每一种实现方式都互不相同，因此很难计算和比较不同IP选项之间的功耗或性能。在比较CNN解决方案时没有可以使用的基准测试标准。FPGA原型平台或许可以提供准确的基准测试结果，但并不能提供准确的功耗估计。

计算功耗的一种方法是运行基于RTL或Netlist的仿真来捕获所有逻辑的翻转。利用设计的布局 , 这些信息可以提供很好的功耗估计。对于较小规模的设计 , 这种仿真可以在几个小时内完成 (例如，在嵌入式RISC 内核上运行CoreMark或Dhrystone)。对于大型设计 , 这种仿真运行较为缓慢。对于需要高帧速率的较大 CNN图形，一次模拟可能需要几周时间才能达到稳定状态来测量功耗。如果IP供应商跳过此类费时费力的功耗测量 , 转而采用较小规模的仿真模型通过一些捷径来估计功耗 , 则会存在真正的风险 , 从而将问题推向下游交给SoC供应商 , 让他们在IP供应商的功耗分析声明上签字了事。

Synopsys的ZeBu 服务器(图2)为IP开发人员和SoC设计人员分析及测量功耗提供了巨大的便利。 ZeBu服务器是业界最快的仿真系统，可以用于完整SoC设计 , 支持多种先进的使用模式 , 包括电源管理验证、全面调试和Verdi集成、带虚拟原型和架构探索的混合仿真 , 以及优化。 ZeBu有额外的功能可以确定所有触发器的翻转率，然后将其反标到真实的硬件上 , 以准确计算功耗。 Synopsys使用该功能可以确保为其嵌入式视觉处理器提供最高精确程度的功耗估算。SoC设计人员可以使用ZeBu来优化系统中所有元件的功耗。这可以帮助把运行RTL仿真进行功耗仿真的时间从数周缩短到数小时。