神经网络的加速方法常用的有两种:
第一种:
第一种是采用模型压缩的方式来减少神经网络模型中不必要的参数,去除这些参数并不会影响网络的精度。由于参数减少,网络的计算得以简化并且计算速度得到大幅度提高。当前模型压缩的方式主要有浅层压缩和深层压缩。浅层压缩通过减少参数和模型层次来达到压缩神经网络模型的目的,但不会改变网络的结构,常用的方法包括滤波器级别的剪枝和知识蒸馏。深层压缩会改变卷积核或者网络层级结构,当前常用的方法包括量化、轻量级网络设计和结构搜索方法。
第二种
第二种是用 SoC+加速器的方法来加速系统的运算。将神经网络中的卷积层放在 FPGA 中处理,将神经网络的池化层、激活函数、系统的量化模块、特征图分块模块等放在 RISC-V 架构的处理器中进行处理,以此来加速整个 SoC。