NCNN特性总结

Andy12138

已于 2023-05-06 17:48:40 修改

阅读量386

点赞数

文章标签：深度学习

于 2023-05-02 17:47:50 首次发布

本文链接：https://blog.csdn.net/qq_44328440/article/details/130465496

版权

ncnn特性总结

整张图做计算，显存消耗太大，所以分块做，降低显存占用峰值
做视频超分时，传统做法是将视频解码出很多图片，针对每张图片做超分，最后将全部图片合成为视频。通过多线程编解码，超分过程中使用多GPU和多CPU并行加速
CPU驱动长时间无法调度资源用于UI渲染，一次性提交大量GPU任务，影响GPU显示，UI卡顿的问题。解决办法，将任务拆小
GPU模型加载问题。GPU加载模型的时候有shader编译的过程，非常消耗资源和时间。有些算子的参数是一样的，对参数做hash，作为key，只有第一次使用该算子的时候进行shader编译，后面就可以直接复用编译好的pipeline对象，这样可以加速模型加载
内存池复用技术。后面的算子使用前面释放出来的算子所占用的内存
动态尺寸输入。输入多大图就计算多大图，无需padding到原图尺寸，节省时间
动态任务分配。在多任务网络中，根据前面的推理结果决定下一步推理流程
算子融合加速。两个运算合并成一个（比如min和max），可以提高推理速度
手机大小核调度
- 大核心CPU：速度快、耗电高。通过线程池绑定的方式，将在前台跑的、实时性要求很高的任务绑定在大核心CPU上
- 小核心CPU：速度慢、耗电低。放一个在后台偷偷跑的任务，不会让前台卡顿
OpenMp里面的busywait过程。某个线程结束时并不会立即放弃CPU，会使用自旋锁等待下一个任务分配，适合实时性要求较高，但是消耗CPU占用率。禁用之可以降低CPU占用率
优化内存布局
- 推理框架的一般布局是（n,c,h,w）这样的布局下,遍历channel时指针是跳跃地访问地址的，有明显的访问延迟。改为（h,w,c），将channel维放在最内层，每个像素对应的c个通道在内存中地址是连续的便于快速访问
- 使用FP16 tensor和BF16 tensor替换FP32 tesor可以节约内存
模型量化技术。浮点数做运算比整数更慢，功耗也更高。针对卷积层做量化处理，float32转为int8，再只用整数的乘法和加法实现卷积层，最后输出int32，再反量化，转为浮点数