目录
摘要
随着智能芯片在边缘终端设备的普及,未来大量的AI应用将部署在更靠近数据源的网络边缘。基于DNN的分割方法可以实现深度学习模型在资源受限的终端设备上训练和部署,解决边缘 AI 算力瓶颈问题。在传统基于工作负载的分割方案(WPM, workload based partition method)的基础上,提出基于卷积核的分割方案(KPM, kernel based partition method),分别从计算量、内存占用、通信开销3个方面进行推理性能的定量分析,并从推理过程灵活性、鲁棒性、隐私性角度进行定性分析。最后搭建软硬件实验平台,使用PyTorch实现AlexNet和VGG11网络进一步验证所提方案在时延和能耗方面的性能优势,相比于传统工作负载分割方案,所提卷积核分割方案在大规模计算场景下有更好的DNN推理加速效果,且具有更低的内存占用和能量消耗。
关键词: 边缘智能 ; 深度神经网络分割 ; 协作计算 ; 并行推理