一种用于植物病害识别的无线协作推理加速框架-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/147867750

朱赫莱 $}^{1, \dagger}$ ，黄心怡 $}^{2, \ddagger}$ ，高浩嘉 ${ }^{3}$ ，姜梦飞 ${ }^{2}$ ，阙浩华 ${ }^{4}$ 和穆雷 $\mathrm{Mu}^{1, \square}$
${ }^{1}$ 西南民族大学，四川成都，中国
${ }^{2}$ 北京航空航天大学，北京，中国
${ }^{3}$ 北京工业大学，北京，中国
${ }^{4}$ 北京林业大学，北京，中国
truemoller@outlook.com

摘要

植物病害是影响农业生产的关键因素。传统的手动识别方法存在显著缺陷，包括低精度、高成本和低效率。深度学习技术在识别植物病害方面表现出显著优势，但仍面临推理延迟和高能耗等挑战。深度学习算法难以在资源受限的嵌入式设备上运行。将这些模型卸载到云服务器则受到通信带宽的限制，所有这些因素都会影响推理效率。我们提出了一种在边缘设备和云服务器之间进行植物病害识别的协作推理框架，以提高推理速度。通过深度强化学习对植物病害识别的DNN模型进行剪枝，以提高推理速度并降低能耗。然后通过贪婪策略确定最佳分割点，以实现最佳的协作推理加速。最后，使用Gradio实现了植物病害识别的协作推理加速系统，以促进友好的人机交互。实验表明，所提出的协作推理框架显著提高了推理速度，同时保持了可接受的识别精度，为快速诊断和预防植物病害提供了新的解决方案。

关键词：植物病害识别，协作推理加速，卷积神经网络

1 引言

植物病害会显著阻碍植物生长和生理功能，导致农产品的质量和产量下降，给农民带来巨大的经济损失。与传统的手动病害识别技术相比，深度神经网络（DNN）[1] 在植物病害识别中显示出巨大的优越性，并逐渐成为研究的焦点。基于DNN的植物病害识别方法主要分为两类：边缘侧推理和服务器侧推理。前者由于边缘设备计算能力有限，导致推理速度慢且能耗高，而后者受网络带宽和延迟的限制，导致通信开销显著增加。

为更有效地解决上述问题，本文提出了一种植物病害识别的协作推理加速框架。其贡献如下：1）通过深度强化学习框架优化逐层稀疏性和网络分区，利用贪婪算法加速协作推理。2）实验验证了其在提高植物病害识别准确性方面的有效性。3）通过基于Grado的系统部署，实现通过上传照片或视频自动化疾病诊断和治疗建议。

2 相关工作

模型压缩可以减少神经网络模型的大小，从而减少计算时间并实现推理加速。Abdul [2] 设计了一个28 KB的int8量化模型用于物联网部署，能够实时诊断9种植物病害。Song [3] 通过深度可分离卷积增强了CSPDarkNet53[4]，在水稻病害检测中实现了高精度和高速度的平衡。He [5] 引入了深度强化学习进行逐层剪枝，实现了 $\%$ 更高的精度、 $\times$ 更少的FLOPs以及 $1.81 \times / 1.43 \times$ 的推理加速。

一种常见的设备端深度学习应用解决方案是通过将推理任务卸载到服务器来利用其高计算能力 [6]。Yu [7] 采用结合ResNet [8] 的迁移学习方法，实现了 $\%$ 的识别精度。Valeria [9] 对主流CNN架构进行了比较微调研究，实现了 $\%$ 的AUC。

边缘-云协作推理通过分割DNN模型减少了延迟和能耗，这与仅依赖云端的方法形成对比，后者因高数据传输需求而受到影响。Lin [10] 提出了Edgent，这是一种针对边缘-云协作的带宽感知自适应DNN分割框架，通过利用边缘计算减少了延迟。Liu [11] 设计了一种用于异构平台的DNN层延迟预测器，实现了平均 $\%$ 的推理加速。Gao [12] 开发了一种基于熵-TOPSIS优化的三段分割网络，无需损失精度即可将端到端延迟减少超过 $\times$ 。

3 方法论

3.1 提出的框架

提出的框架利用分割方法，通过较小的中间层输出代替原始输入数据来分割DNN模型。需要较少计算但更多数据传输的前几层运行在边缘设备上，而需要大量计算但通信量较少的后几层则在云端处理。这减少了延迟、能耗和带宽使用，平衡了计算和通信需求。

图1. 提出的无线协作推理加速框架
该框架通过两个核心阶段加速协作推理：(1) 基于深度强化学习（DRL）的逐层稀疏性优化以实现模型压缩；(2) 基于延迟感知的贪婪搜索以选择云端-边缘分割点。如图1所示，预训练模型首先通过强化学习进行压缩，以确定每层特定的剪枝策略，然后通过贪婪评估在延迟最优分割点处进行分割。生成的边缘侧和云端子模型分别部署，以实现最小的端到端延迟，同时平衡计算和通信资源。

3.2 模型压缩

模型压缩采用深度强化学习在层级别做出剪枝策略决策，自动确定每层的最佳稀疏性比例，同时在不牺牲准确性的前提下剪枝模型。

AMC方法 [5] 将用于自动化剪枝。深度确定性策略梯度（DDPG）[13] 用于确定每层的剪枝比例。状态空间表示问题解决的空间，这里的环境是每个网络层的参数。对于每个网络层 $i$ ，其状态 $s_{i}$ 可描述如下：

$\left(i, n, c, h, w, \text { stride }, k, F L O P s[i], F_{r d c}, F_{r e s t}, a_{i-1}\right)$

其中 $i$ 表示层索引； $n$ 和 $c$ 分别表示输出和输入通道数， $h$ 和 $w$ 表示特征图的高度和宽度，stride和 $k$ 表示步长和卷积核大小。FLOPs[i] 表示第 $i$ 层的浮点运算量， $F_{r d c}$ 和 $F_{r e s t}$ 分别表示第 $i$ 层减少和剩余的浮点运算量， $a_{i . l}$ 表示第 $i$ 层之前采取的动作。

动作空间是每层卷积层的稀疏性比例，具有连续动作空间 $\in(0,1]$ 。

奖励函数定义为 $r = A cc$ ，其中 $A cc$ 表示模型的准确性。
在策略更新训练过程中，转移状态为 $\left(s_{i}, a_{i}, r_{i}, s_{i+1}\right)$ ，其中 $r$ 是网络剪枝后的奖励。基于贝尔曼方程，训练中的损失函数定义为公式2。

$\operatorname{Loss}=\frac{1}{N} \sum_{i=1}\left(y_{i}-Q\left(s_{i}, a_{i} \mid \theta^{Q}\right)\right)^{2}$

其中 $y_{i}$ 定义如下：

$y_{i}=r_{i}-b+\gamma Q\left(s_{i+1}, \mu\left(s_{i+1}\right) \mid \theta^{Q}\right)$

其中基准奖励 $b$ 减少梯度估计的方差，折扣因子 $\gamma$ 设置为1以避免过度优先短期奖励。

为了更好地探索动作空间，我们在策略输出中使用截断正态分布添加一些随机噪声，其表达式进入公式4。

$\mu^{\prime}\left(s_{i}\right) \sim T N\left(\mu\left(s_{i} \mid \theta_{i}^{\mu}\right), \sigma^{2}, 0.1\right)$

其中噪声 $\sigma$ 初始化为0.5，并在每轮后指数衰减。

3.3 DNN 分割

本节分析AlexNet在前向推理执行期间每层的数据大小和处理延迟。

图2. 层级输出数据大小和延迟
模型接收一个16.50 KB大小、分辨率为 $256 \times 256$ 像素的原始植物病害图像。经过数据预处理后，图像转换为 $\times 3 \times 224 \times 224$ 格式，文件大小为73.50 KB 。每层的输出数据大小和延迟如图2所示，其中绿色和蓝色条形分别表示不同层处理后的输出数据大小和延迟。随着层数增加，输出数据大小减少。经过前两层卷积层Conv1和Conv2后，数据大小迅速增加。经过最大池化层后，数据大小显著减少，因为池化层有效降低了数据的维度。随后，经过更深的全连接层后，输出数据大小持续减少。

基于上述分析，可以在AlexNet候选分割点中识别出理想的分割点，从而最小化整体推理延迟并减少通信开销。

当选择最佳分割点时可以进行模型部署。DNN模型分为两部分：设备侧模型和服务器侧模型，在最佳分割点处分割。这两部分分别部署在边缘设备和云端服务器上。边缘设备基于输入数据逐层计算设备侧模型，生成中间特征并通过套接字协议传输到云端服务器。云端服务器逐层处理服务器侧模型，最终返回推理结果到边缘设备。

3.4 问题建模

本节将详细分析协作推理过程，并建立延迟模型。

协作推理延迟包括设备计算延迟、服务器计算延迟和中间传输延迟。在协作推理过程中，设备和服务器逐层计算的时间和相应的延迟分别是设备计算延迟和服务器计算延迟。传输延迟是将中间特征传输到服务器所需的时间，因此协作推理延迟可以按公式5计算。

$T=T_{D}+T_{T X}+T_{S}$

其中 $T_{D}, T_{S}$ 和 $T_{T X}$ 分别表示设备计算延迟、服务器计算延迟和中间特征变量传输延迟。

优化问题形式化为：给定一个神经网络模型 $G$ 及其模型参数 $\theta$ ，找到对应的协作推理分割点 $c$ 和最佳剪枝策略 $S$ 以最小化推理延迟，可以描述为公式6。

$\underset{c, S}{\operatorname{argmin}} T(G(\theta), c)=\underset{c, S}{\operatorname{argmin}}\left(T_{D}+T_{T X}+T_{S}\right)$

其中 $S=\left\{S(l) \mid l \leq N_{M}, l \in N_{+}\right\}, 1 \leq c \leq N, c \in N_{+}, 0 \leq S(l) \leq 1, l \leq N_{M}, l \in N_{+}$ 。 $N$ 是所选模型的最大层数， $S (l)$ 表示第 $l$ 层的稀疏性比例。

我们将此设计为无线协作参考分割点 $c$ 和最佳剪枝策略 $S$ 的联合优化问题。选择适当的DNN分割和模型压缩参数对于实现最佳推理加速至关重要。然而，这构成了一个涉及多层稀疏性比例和分割点的非线性混合整数规划问题，涵盖了巨大的解空间。为应对这一挑战，我们提出了一种新颖的两阶段优化方法，能够确定最佳策略。

3.5 算法

解决上述优化问题的伪代码如下所示：
算法1 提出的无线协作推理加速算法
1: 输入：模型 $G(\theta)$
2: 输出：最佳剪枝策略 $S$ 和分割点 $c$
3: 随机初始化Critic-Network $Q$ 和 Actor-Network $u$
4: 初始化目标网络 $Q^{\prime}$ 和 $u^{\prime}$
5: 创建经验回放缓冲区 $R$
6: 对于 $e p = 1$ 到 $E_{\max }$ ：
7: 获取初始观察状态 $s_{l}$
8: $\quad$ 对于 $t = 1$ 到 $N$ ：
9: 使用当前策略 $u$ 选择动作 $a_{t}$
10: $\quad$ 执行动作 $a_{t}$
11: $\quad$ 接收奖励 $r_{t}$ 和下一个状态 $s_{t+1}$
12: $\quad$ 将转移 $\left(s_{t}, a_{t}, r_{t}, s_{t+1}\right)$ 存储在 $R$ 中
13: $\quad$ 从 $R$ 中采样 $N$ 转移 $\left(s_{t}, a_{t}, r_{t}, s_{t+1}\right)$
14: $\quad$ 使用公式 (3) 计算 $y_{t}$
15: $\quad$ 通过最小化损失（公式2）更新Critic-Network
16: $\quad$ 通过策略梯度更新Actor-Network
17: $\quad$ 更新目标网络 $Q^{\prime}, u^{\prime}$
18: 获取最佳剪枝策略 $S$
19: 剪枝模型得到 $G^{\prime}\left(\theta^{\prime}\right)$
20: 设置 $T_{\min }=T\left(G^{\prime}\left(\theta^{\prime}\right), 1\right), c=1$
21: 对于 $j = 2$ 到 $N$ ：
22: $\quad$ 通过时间戳计算 $T\left(G^{\prime}\left(\theta^{\prime}\right), j\right)$
23: $\quad T_{\text {imp }}=T\left(G^{\prime}\left(\theta^{\prime}\right), j\right)$
24: 如果 $T_{\text {imp }}<T_{\text {min }}$ ：
25: $c = j$
26: $\quad T_{\text {min }}=T_{\text {imp }}$
27: 返回最佳分割点 $c$

用于植物病害识别的DNN模型通过深度强化学习进行剪枝以提高推理速度。随后，通过贪婪算法确定最佳分割点以实现最大化的协作推理加速。

4 实验

4.1 设置

数据集。Plant Village [14] 数据集是由宾夕法尼亚州立大学构建的大规模开源图像数据集，用于植物病害研究。它包含54,305张患病叶片图像，分为38个类别。每张图像统一大小为 $256 \times 256$ 像素，格式为JPG。我们采用分层划分方法对每个类别的样本进行类内分层，以确保训练集和测试集中样本分布均匀。每个类别的38种疾病的样本按照 $\%$ 的比例划分为训练集，其余 $\%$ 的样本划分为测试集。

环境配置。在本实验中，边缘设备配置为Intel Core i7-6700 CPU（4核，3.4 GHz ，8G RAM）。服务器配备AMD Ryzen 55600 6核处理器（64G RAM，2200MHz）和NVIDIA GeForce RTX 3090 GPU（24GB VRAM）。双方均基于Python 3.8.18、Pytorch 2.0.0和CUDA 12.2的环境。

优化方案采用带有动量的随机梯度下降（SGD），初始学习率设置为0.01，动量系数配置为0.9以加速模型收敛过程。实施StepLR学习率调度器执行逐步衰减策略，具体设计为每20个训练周期（step_size=20）将学习率乘以衰减因子0.1（gamma=0.1）。批量大小设置为32。

4.2 结果与分析

模型压缩。目标稀疏性比例设为20%。Actor和Critic网络均设计为包含两个隐藏层，每层包含300个神经元。重放缓冲区大小设置为500次转移。在前100次剪枝训练迭代中，使用固定噪声水平 $\sigma=0.5$ 进行动作探索，随后在后续迭代中指数衰减。如图3所示，五个卷积层的稀疏性比例分别为 $1, 0.875, 0.125, 0.292$ 和0.313。

图4显示，剪枝后的模型在各方面均优于原始模型。具体而言，除了Conv1外，各层剪枝后的输出数据大小分别减少了约 $\%, 87.50 \%, 70.84 \%$ 和 $\%$ 。这表明剪枝后的模型有效减少了参数数量和存储需求。此外，各层的处理延迟也有所减少，分别减少了 $\%, 93.39 \%, 91.93 \%$ 和 $\%$ 。这突显了剪枝后的模型加速推理速度，提升了用户体验。

由于模型剪枝后准确率往往下降，因此微调是恢复丢失准确率的关键。从表1可以看出，剪枝模型的Top-k准确率分别仅比原始模型下降了 $\%, 0.15 \%$ 和 $\%$ ；而微调模型的Top-k准确率分别比剪枝模型提高了 $\%$ ，
$\%$ 和 $\%$ 。所提出的模型压缩方法在性能良好的前提下有效提升了推理速度。

图3. 各层通道数

图4. 层级输出数据大小和延迟
表1. Top-k准确率

模型类型	Top-1准确率	Top-3准确率	Top-5准确率
原始模型	$\%$	$\%$	$\%$
剪枝模型	$\%$	$\%$	$\%$
微调模型	$\%$	$\%$	$\%$

DNN分割。在带宽约为50 Mbps的Wi-Fi网络环境下，评估了DNN分割中分割点选择的影响，共进行了十次实验。如表2所示，协作推理延迟在分割点6达到最小值，表明这是本研究中的最佳分割点。它接近输入数据，允许推理尽早开始而无需等待大量的中间结果。此外，在这一点之前的MaxPool层减少了输出数据的大小，显著降低了通信开销。
表2. 分割点及相应延迟

分割点	$\mathbf{1}$	$\mathbf{2}$	$\mathbf{3}$	$\mathbf{4}$	$\mathbf{5}$
延迟	99.91	166.98	65.89	85.03	31.91
分割点	$\mathbf{6}$	$\mathbf{7}$	$\mathbf{8}$	$\mathbf{9}$	$\mathbf{1 0}$
延迟	20.07	60.88	40.98	55.93	37.96
分割点	$\mathbf{1 1}$	$\mathbf{1 2}$	$\mathbf{1 3}$	$\mathbf{1 4}$	$\mathbf{1 5}$
延迟	57.79	36.11	27.96	26.34	39.15
分割点	$\mathbf{1 6}$	$\mathbf{1 7}$	$\mathbf{1 8}$	$\mathbf{1 9}$	$\mathbf{2 0}$
延迟	34.57	31.75	36.04	36.67	36.59

协作推理加速。为展示效率，所提出的框架被称为pruned_co_infer方法，并与基线方法在延迟方面进行比较。如图5所示，仅设备方法将整个模型部署在边缘设备上，平均延迟为31.36 ms。仅服务器方法需要传输所有输入数据，因此推理延迟取决于无线传输带宽，平均延迟为80.78 ms。与原始形式相比，仅设备和仅服务器方法都可以通过剪枝实现加速。pruned_co_infer方法的平均延迟为18.55 ms。与仅边缘和仅云端方法相比，它分别实现了 $1.69× \times$ 和 $4.35× \times$ 的加速，展示了协作推理的效率。

图5. 不同方法的比较

4.3 实现

为了增强用户友好的计算机交互，我们开发了一个基于套接字的无线协作推理应用程序系统，使用Gradio [15] 来识别植物病害，Gradio是由Hugging Face发布的知名Web UI框架。

训练后的模型部署在边缘设备和云端服务器上。在边缘客户端，系统调用DNN模型的初始层以实时处理疾病图像，生成中间特征结果并通过套接字协议发送到云端服务器。在云端服务器端，它使用DNN模型的后几层处理中间结果，并将推理结果返回到边缘客户端以进一步使用。

系统的主要功能模块包括参数设置、识别结果、带分割点的模型结构演示和预防建议。系统的图形用户界面（GUI）示例如图6所示。

图6. 用于植物病害识别的无线协作推理系统GUI
如图6所示，系统为用户提供来自图像、视频或实时视频流的植物病害识别结果。它利用Gradio中的Model3D模块与GLB格式存储的深度学习模型进行交互，并显示模型结构和分割点。在用户参数设置下，展示了实时协作推理和基线方法的延迟比较曲线以进行数据可视化。此外，数据库匹配查询还提供了相应的疾病预防建议。

5 结论

综上所述，本文提出了一种新颖的无线协作推理加速框架，解决了在资源有限的硬件设备上部署基于深度学习的应用程序以进行植物病害识别的关键挑战。

我们的方法利用DDPG为基础的方法，通过两阶段过程实现逐层稀疏性分配和延迟最小化的云端-边缘分割：1）强化学习引导的剪枝策略生成；2）基于贪婪算法的模型分割。实验结果表明，该框架在保持识别精度令人满意的同时大大提高了推理速度。此外，实现中包括一个基于Gradio的界面，用于实时植物病害诊断，展示了在智能农业应用中的实际可行性。
致谢。 $}^{\dagger}$ 两位作者对本工作贡献相同。本研究得到了四川省科技计划项目资助（2023YFG0302）和西南民族大学中央高校基本科研业务费专项资金资助（ZYN2023098）。

参考文献

LeCun, Y., Bengio, Y., Hinton, G.: 深度学习。Nature 521(7553), 436-444 (2015)
1. Rakib, A.F., Rahman, R., Razi, A.A., Hasan, A.T.: 一种轻量级量化CNN模型用于植物病害识别。Arab. J. Sci. Eng. 49(3), 4097-4108 (2024)
1. Song, D.: 基于深度学习的水稻叶病害检测研究与实现。硕士学位论文，宁夏大学 (2022)
1. Wang, C.-Y., Liao, H.-Y.M., Wu, Y.-H., Chen, P.-Y., Hsieh, J.-W., Yeh, I.-H.: CSPNet: 一种可增强CNN学习能力的新骨干网络。Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 390-391 (2020)
1. He, Y., Lin, J., Liu, Z., Wang, H., Li, L.-J., Han, S.: AMC: AutoML for model compression and acceleration on mobile devices. Proc. European Conf. on Computer Vision (ECCV), pp. 784-800 (2018)
1. Shi, Y., Yang, K., Jiang, T., Zhang, J., Letaief, K.B.: Communication-efficient edge AI: Algorithms and systems. IEEE Commun. Surv. Tutor. 22(4), 2167-2191 (2020)
1. Yu, X., Yang, M., Zhang, H., Li, D., Tang, Y., Yu, X.: 基于迁移学习的作物病害检测方法的研究与应用。Trans. Chin. Soc. Agric. Mach. 51(10), 252-258 (2020)
1. He, K., Zhang, X., Ren, S., Sun, J.: 深度残差学习用于图像识别。Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 770-778 (2016)
1. Maeda-Gutiérrez, V., Galvan-Tejada, C.E., Zanella-Calzada, L.A., et al.: 卷积神经网络架构用于番茄植株病害分类的比较。Appl. Sci. 10(4), 1245 (2020)
  10.10. Lin, S., Zhou, Z., Zhang, Z., et al.: 通过边缘计算按需加速深度神经网络推理。Edge Intelligence in the Making: Optimization, Deep Learning, and Applications, pp. 151-168. Springer (2021)
Liu, G., Dai, F., Xu, X., et al.: 具有端-边缘-云协同计算的自适应DNN推理加速框架。Future Gener. Comput. Syst. 140, 422-435 (2023)
1. Gao, Z., Miao, D., Zhao, L., et al.: Triple-partition network: 基于“端设备-边缘-云”的协作神经网络。Proc. IEEE Wireless Communications and Networking Conf. (WCNC), pp. 1-7 (2021)
1. Lillicrap, T.P.: 基于深度强化学习的连续控制。arXiv preprint arXiv:1509.02971 (2015)
1. Hughes, D., Salathé, M., et al.: 一个开放访问的植物健康图像存储库，用于开发移动病害诊断工具。arXiv preprint arXiv:1511.08060 (2015)
1. Abid, A., Abdalla, A., Abid, A., et al.: Gradio: 在野外无压力共享和测试ML模型。arXiv preprint arXiv:1906.02569 (2019)
  参考论文：https://arxiv.org/pdf/2505.02877