NCNN特性总结

ncnn特性总结

  • 整张图做计算,显存消耗太大,所以分块做,降低显存占用峰值
  • 做视频超分时,传统做法是将视频解码出很多图片,针对每张图片做超分,最后将全部图片合成为视频。通过多线程编解码,超分过程中使用多GPU和多CPU并行加速
  • CPU驱动长时间无法调度资源用于UI渲染,一次性提交大量GPU任务,影响GPU显示,UI卡顿的问题。解决办法,将任务拆小
  • GPU模型加载问题。GPU加载模型的时候有shader编译的过程,非常消耗资源和时间。有些算子的参数是一样的,对参数做hash,作为key,只有第一次使用该算子的时候进行shader编译,后面就可以直接复用编译好的pipeline对象,这样可以加速模型加载
  • 内存池复用技术。后面的算子使用前面释放出来的算子所占用的内存
  • 动态尺寸输入。输入多大图就计算多大图,无需padding到原图尺寸,节省时间
  • 动态任务分配。在多任务网络中,根据前面的推理结果决定下一步推理流程
  • 算子融合加速。两个运算合并成一个(比如min和max),可以提高推理速度
  • 手机大小核调度
    • 大核心CPU:速度快、耗电高。通过线程池绑定的方式,将在前台跑的、实时性要求很高的任务绑定在大核心CPU上
    • 小核心CPU:速度慢、耗电低。放一个在后台偷偷跑的任务,不会让前台卡顿
  • OpenMp里面的busywait过程。某个线程结束时并不会立即放弃CPU,会使用自旋锁等待下一个任务分配,适合实时性要求较高,但是消耗CPU占用率。禁用之可以降低CPU占用率
  • 优化内存布局
    • 推理框架的一般布局是(n,c,h,w)这样的布局下,遍历channel时指针是跳跃地访问地址的,有明显的访问延迟。改为(h,w,c),将channel维放在最内层,每个像素对应的c个通道在内存中地址是连续的便于快速访问
    • 使用FP16 tensor和BF16 tensor替换FP32 tesor可以节约内存
  • 模型量化技术。浮点数做运算比整数更慢,功耗也更高。针对卷积层做量化处理,float32转为int8,再只用整数的乘法和加法实现卷积层,最后输出int32,再反量化,转为浮点数

来源

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值