MetaTinyML：面向TinyML平台的端到端元推理框架

本文链接：https://blog.csdn.net/bit_mike/article/details/144341629

论文标题：MetaTinyML: End-to-End Metareasoning Framework for TinyML Platforms

作者信息：Mozhgan Navardi（IEEE学生会员）、Edward Humes 和 Tinoosh Mohsenin

论文出处：IEEE Embedded Systems Letters, 第16卷，第4期，2024年12月

摘要：本研究介绍了MetaTinyML，这是一个全面的元推理框架，用于TinyML平台上的自我引导导航。该框架通过考虑环境变化来适应其决策过程，选择当前场景下最合适的算法。在NVIDIA Jetson Nano 4-GB系统上集成Jetbot地面车辆的MetaTinyML实现展示了高达50%的功耗提升。

引言： TinyML（Tiny Machine Learning）作为边缘计算的概念，通过有效优化硬件和软件组件，建立了嵌入式系统与机器学习之间的联系。TinyML的主要目标是在极低功耗设备上部署机器学习推理，这些设备具有有限的板载内存资源，能够处理来自设备传感器收集的数据，而无需与云端设备通信。将机器学习推理移到边缘可以满足实时要求，包括降低延迟和吞吐量，同时保持功耗和能效，以及在软件方面保持可接受的准确度。

Metareasoning在TinyML平台中的应用： A. 框架概述 MetaTinyML框架包括三个主要部分：1) 基础层（环境）；2) 对象层（代理）；3) 元层（元推理）。在基础层，代理执行其分配的任务，并将每一步的状态（捕获的图像）发送到对象层以确定下一个动作。在对象层，一个具有高级和低级策略的RL模型负责代理导航和给出下一个动作。为了提高RL模型的性能，不是将整个图像作为输入喂给RL模型，而是传递一个简化的1×k+(4+k)向量作为输入。为了生成RL模型输入，框架中使用了一个预处理模块，包括一个目标检测模型和多标签图像分类模型。在每一步中，元层模块将选择这些模型之一来处理捕获的图像。元层监控代理和环境的任何变化，以在YOLO和CNN模型之间进行切换。

B. 提出的元策略为了元层，我们提出了一个元策略，以高效地在轻量级的CNN基础目标检测模型和更密集的YOLO模型之间切换。CNN模型提供了捕获图像中检测到的对象列表，但缺乏对象位置或边界框的信息。然而，边界框对于RL模型中的目标导向导航至关重要，因为它们有助于确定代理与目标之间的距离。因此，我们不能完全用CNN模型替换YOLO模型，但我们可以减少必须运行YOLO模型的次数。为此，我们在框架中添加了一个元层来监控代理和环境的任何变化，以确定我们是否需要一个新的边界框，或者可以简单地依赖于之前生成的边界框。元层将在这两者模型之间切换，并尽可能根据提出的元策略选择CNN模型。

实验结果： A. 实验设置使用配备有4GB内存的Jetson Nano的Jetbot进行真实世界应用。我们开发了两种模型来检测环境中的目标对象：一个使用YOLOv5n，另一个使用简单的CNN基础轻量模型。CNN基础轻量模型的架构如图4所示。对于专注于对象存在检测的轻量模型，我们使用了3通道256×256的图像分辨率。相比之下，设计为较少频率运行并负责记录对象边界框的YOLOv5n模型，使用了更大的输入图像尺寸416×416。这两个模型都是使用包含模拟和现实世界场景中捕获的彩色形状图像的自定义数据集进行训练的。

B. 端到端MetaTinyML结果硬件结果：我们在配备有4GB RAM的Jetbot上部署了端到端的MetaTinyML，并与名为ReProHRL的最先进的工作进行了比较。表I结果显示了ReProHRL（无元策略）、MetaE2RL、MetaTinyML和MetaTinyML-sleep的功耗和完成任务所需的时间。根据提供的结果，MetaTinyML-sleep是能效最高的方法，但由于增加了睡眠时间，与其他版本相比，任务完成时间有所增加。在TinyML自主导航中应用元推理可以比[15]中提出的方法节省高达50%的能量。模型切换开销：为了分析模型切换开销，我们测量了功耗并跟踪了推理延迟。图5显示了在Jetson Nano上部署端到端MetaTinyML和MetaTinyML-sleep时的GPU+CPU功耗和延迟。根据结果，当功耗或延迟下降时，可以提取切换点，因为较轻的模型将消耗较少的功率并且更快。另一方面，当切换发生时，图中没有明显的直线，意味着切换的开销可以忽略不计。此外，图5(a)显示MetaTinyML-sleep比MetaTinyML消耗的功率少，但它的延迟大约是后者的两倍。此外，我们提取了运行CNN模型和YOLO模型的次数，并在图6上报告了CNN模型/YOLO模型的比例。结果表明，MetaTinyML在80%的时间里选择了较轻的模型来处理捕获的图像，这比MetaE2RL高出30%。

相关工作：有调查[1]、[4]、[5]涉及TinyML系统挑战，并在此领域进行了最先进的工作。[1]中讨论了TinyML的设计流程以及TinyML中软件和硬件级别优化的各种相关工作。元推理方法[8]、[13]、[16]、[17]、[18]、[19]可以被认为是在边缘和TinyML系统中调度任务和管理内存使用和功耗的有前途的解决方案。[18]中的工作提出了一个元策略，用于在自主系统中切换云端和板载实现以完成任务。此外，Navardi等人[16]在Crazyflie无人机上应用了元推理方法进行多目标RL导航，同时提出了在GAP8处理器上使用压缩边缘YOLO。然而，这些工作中他们没有在平台上部署元推理方法端到端，也没有评估提出的元推理方法的端到端效率。

结论：在这项工作中，我们提出了一个端到端的元推理框架MetaTinyML，用于TinyML平台上的目标导向自主导航。在提出的框架中，我们提出了一个新的元策略，用于实时决策使用CNN或基于YOLO的模型进行处理。为了评估提出的MetaTinyML框架，我们将端到端框架部署在配备NVIDIA Jetson Nano 4-GB板的Jetbot上。提供了一个演示链接，展示了jetbot在切换两种模型的同时成功到达目标。