低功耗计算机视觉中的流水线设计与优化-CSDN博客

本文链接：https://blog.csdn.net/weixin_29940495/article/details/147262317

低功耗计算机视觉中的流水线设计与优化

背景简介

在当今世界，随着物联网和移动设备的快速发展，低功耗计算变得越来越重要。特别是在计算机视觉领域，如何设计出能够兼顾性能与能耗的系统，是当前研究的热点之一。本章介绍了一种面向低功耗图像识别系统的设计方法论，重点讨论了如何通过流水线设计、启发式算法和软件优化来提高处理效率。

低功耗流水线设计

在低功耗图像识别系统中，通过将网络分割成多个阶段，并将这些阶段分配给不同的处理元素（如DLA和GPU）来实现流水线处理，是提高吞吐量的关键。为了有效利用异构硬件资源，我们设计了启发式算法来决定网络分割的切割点。这种算法通过全局搜索和局部搜索两个阶段来确定切割点，既保证了搜索的准确性，又提高了搜索效率。

多流并行技术

多流并行技术是提升GPU和DLA利用率的重要手段。通过在预处理或后处理步骤中使用多个线程，并在管道接口处创建与线程数量相匹配的缓冲区，可以进一步提高性能。但是，缓冲区数量的增加并非总是有益，过多的缓冲区反而可能造成资源浪费和性能饱和。

软件框架的构建

为了在Jetson硬件平台上实现网络流水线，开发了一个基于TensorRT的软件框架JEDI。JEDI框架通过修改tkDNN库使得TensorRT更易于使用，并创建了独立的推理引擎和执行上下文。此外，JEDI框架还负责管理缓冲区和线程的同步，以确保流水线的正确运行。

实验结果与优化

在实验部分，作者对比了不同网络算法在不同硬件平台上的性能，并展示了优化前后的效果。通过流水线启发式算法和软件优化技术，不仅提升了系统性能，还在保证准确度的同时降低了能耗。

实验观察

当硬件从Jetson TX2升级到Jetson AGX Xavier时，性能和吞吐量有显著提升，能耗也有所下降。
小型网络在使用多个预处理线程时，由于预处理步骤对性能影响较大，GPU和DLA之间的性能差距减小。
YOLOv4作为最先进的目标检测器，在精度上有优势，但在实际吞吐量上却不如YOLOv2。
Tiny YOLOv4虽然在精度上与YOLOv2相似，但运行速度更快，且由于网络不长，流水线对其加速作用有限。

总结与启发

本章提供的设计方法论对于低功耗图像识别系统的设计具有重要启示。通过流水线设计和软件优化，可以在不增加能耗的前提下，显著提升系统的性能。同时，实验结果也表明，在实际应用中，需要根据具体应用场景选择合适的网络算法和硬件平台。未来，随着硬件性能的不断提升和算法的不断优化，低功耗图像识别系统将有更广阔的应用前景。

通过本章的学习，我们可以看到，在低功耗系统设计中，创新的设计思路和细致的优化策略是实现高性能和低能耗的关键。这一理念不仅适用于计算机视觉领域，也对我们处理其他计算密集型任务时提供了宝贵的参考。