模型压缩简介

模型压缩领域对大脑的稀疏激活的应用是模型剪枝,相当于把模型做窄,永久失活一部分神经元,而不改变模型架构。
另一种模型压缩还可以直接改变模型架构,虽然做不到模仿人脑进行稀疏连接,依然有很好的压缩效果,这种方法称为模型蒸馏。
第三种模型压缩是进行知识的凝缩表达来减少需要记忆的知识量,这种方法称为模型量化。

模型压缩,基本上可以分为:蒸馏、剪枝、量化、模型高效化。
https://zhuanlan.zhihu.com/p/523897633

5种主流的深度网络模型
1.1设计高效的网络结构
1.2模型剪枝
1.3知识蒸馏
1.4稀疏
1.5模型量化
https://segmentfault.com/a/1190000040794679

 
https://zhuanlan.zhihu.com/p/147204568

 

模型量化
https://zhuanlan.zhihu.com/p/505570612  (图)

模型加速【1】入门篇
 
https://www.cnblogs.com/yanshw/p/16049446.html

 

美团视觉GPU推理服务部署架构优化实践

通过模型结构拆分和微服务化进行优化,他们提出了一种通用高效的部署架构。
介绍推理服务部署架构优化的工程实践。

造成视觉推理服务GPU利用率低下的一个重要原因是模型结构问题:模型中预处理或者后处理部分CPU运算速度慢,导致推理主干网络无法充分发挥GPU运算性能。

深度学习模型部署前通常会使用优化工具进行优化,常见的优化工具包括TensorRT、TF-TRT、TVM和OpenVINO等。
模型部署是生产应用的最后一环,它将深度学习模型推理过程封装成服务,内部实现模型加载、模型版本管理、批处理以及服务接口封装等功能,对外提供RPC/HTTP接口。

Triton:Triton是Nvidia发布的高性能推理服务框架,支持TensorFlow、TensorRT、PyTorch和ONNX等多种框架模型,适用于多模型联合推理场景。

模型在部署和优化上存在2个问题:

模型优化不彻底:TensorRT、TF-TRT等工具主要针对主干网络优化,但忽略了预处理部分,因此整个模型优化并不充分或者无法优化。

多模型部署困难:视觉服务经常存在组合串接多个模型实现功能的情况。例如在文字识别服务中,先通过检测模型定位文字位置,然后裁切文字所在位置的局部图片,最后送入识别模型得到文字识别结果。
服务中多个模型可能采用不同训练框架,TF-Serving或Troch Serve推理框架只支持单一模型格式,无法满足部署需求。Triton支持多种模型格式,模型之间的组合逻辑可以通过自定义模块(Backend)和集成调度(Ensemble)方式搭建,但实现起来较为复杂,并且整体性能可能存在问题。

拆分后的检测模型和分类模型经过TensorRT优化后采用Triton部署。

拆分微服务的方式充分发挥了GPU运算性能。
https://mp.weixin.qq.com/s/_o7fzCOeuZE6qFc5gHb26g

清华
ChatGLM-6B
https://github.com/THUDM/ChatGLM-6B

大模型
https://www.zhihu.com/question/498275802

模型压缩介绍
https://aieye-top.github.io/d2cl/chapter_compression/quantization.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WX Chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值