java高性能低功耗计算_实现低功耗的高性能深度学习

对于大多数功耗敏感型的嵌入式视觉应用而言 , 搭载专用CNN引擎的视觉处理器可 能是能否满 足设计功 耗 预算的关键区别因素。选择专用CNN引擎似乎是一件理所应当的事情 , 但如何在芯片实现之前就测量 出 功 耗呢?

我们假设一项应用的性能阈值对功耗预算有严格要求,例如电池供电的物联网 智能家居或运 行面部识别 功 能的移动设备。根据所需要的帧大小、帧速率和其他参数的不同,面部识别 可能需要数百 GMAC/s的嵌入 式视觉处理能力。ASIC或SoC设计现在必须寻找到一种嵌入式视觉解决方案 , 其能够在设计的 功耗预算内 执行该网络 – 比如说 , 功耗预算为几百mW。

遗憾的是,对不同的视觉处理器IP进行比较并不是一件简单的事情。这些刚刚崭露头角(bleeding edge)的 IP解决方案通常还没有形成芯片,而且每一种实现方式都互不相同,因此很难计 算和比较不 同IP选项之间 的功耗或性能。在比较CNN解决方案时没有可以使用的基准测试标准。FPGA原型平台或许可以提供准确的基准测试结果,但并不能提供准确的功耗估计。

计算功耗的一种方法是运行基于RTL或Netlist的仿真来捕获所有逻辑的翻转。利用设计的布局 , 这些信息可 以提供很好的功耗估计。对于较小规模的设计 , 这种仿真可以在几个小时内完成 (例如,在嵌入式RISC 内核 上运行CoreMark或Dhrystone)。对于大型设计 , 这种仿真运行较为缓慢。 对于需要高 帧速率的较大 CNN图 形,一次模拟可能需要几周时间才能达到稳定状态来测量功耗。 如果IP供应 商跳过此类费时费力 的功耗测 量 , 转而采用较小规模的仿真模型通过一些捷径来估计功耗 , 则会存在真正的风险 , 从而将问题推向下 游交 给SoC供应商 , 让他们在IP供应商的功耗分析声明上签字了事。

Synopsys的ZeBu 服务器(图2)为IP开发人员和SoC设计人员分析 及测量功耗提供了巨大 的便利。 ZeBu服 务器是业界最快的仿真系统,可以用于完整SoC设计 , 支持多种先进的使用模式 , 包括电源管理验证、全面 调试和Verdi集成、带虚拟原型和架构探索的混合仿真 , 以及优化。 ZeBu有额外 的功能可以确定 所有触 发 器的翻转率,然后将其反标到真实的硬件上 , 以准确计算功耗。 Synopsys使用该功能可以确保为其嵌入 式 视觉处理器提供最高精确程度的功耗估算。SoC设计人员可以使用ZeBu来优化系统中所有元件的功耗。这可以帮助把运行RTL仿真进行功耗仿真的时间从数周缩短到数小时。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值