模型压缩简介

最新推荐文章于 2024-11-07 13:16:34 发布

WX Chen

最新推荐文章于 2024-11-07 13:16:34 发布

阅读量273

点赞数

分类专栏：视觉AI算法文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kl1411/article/details/129981728

版权

视觉AI算法专栏收录该内容

11 篇文章

订阅专栏

模型压缩领域对大脑的稀疏激活的应用是模型剪枝，相当于把模型做窄，永久失活一部分神经元，而不改变模型架构。
另一种模型压缩还可以直接改变模型架构，虽然做不到模仿人脑进行稀疏连接，依然有很好的压缩效果，这种方法称为模型蒸馏。
第三种模型压缩是进行知识的凝缩表达来减少需要记忆的知识量，这种方法称为模型量化。

模型压缩，基本上可以分为：蒸馏、剪枝、量化、模型高效化。
https://zhuanlan.zhihu.com/p/523897633

5种主流的深度网络模型
1.1设计高效的网络结构
1.2模型剪枝
1.3知识蒸馏
1.4稀疏
1.5模型量化
https://segmentfault.com/a/1190000040794679

https://zhuanlan.zhihu.com/p/147204568

模型量化
https://zhuanlan.zhihu.com/p/505570612 （图）

模型加速【1】入门篇

https://www.cnblogs.com/yanshw/p/16049446.html

美团视觉GPU推理服务部署架构优化实践

通过模型结构拆分和微服务化进行优化，他们提出了一种通用高效的部署架构。
介绍推理服务部署架构优化的工程实践。

造成视觉推理服务GPU利用率低下的一个重要原因是模型结构问题：模型中预处理或者后处理部分CPU运算速度慢，导致推理主干网络无法充分发挥GPU运算性能。

深度学习模型部署前通常会使用优化工具进行优化，常见的优化工具包括TensorRT、TF-TRT、TVM和OpenVINO等。
模型部署是生产应用的最后一环，它将深度学习模型推理过程封装成服务，内部实现模型加载、模型版本管理、批处理以及服务接口封装等功能，对外提供RPC/HTTP接口。

Triton：Triton是Nvidia发布的高性能推理服务框架，支持TensorFlow、TensorRT、PyTorch和ONNX等多种框架模型，适用于多模型联合推理场景。

模型在部署和优化上存在2个问题：

模型优化不彻底：TensorRT、TF-TRT等工具主要针对主干网络优化，但忽略了预处理部分，因此整个模型优化并不充分或者无法优化。

多模型部署困难：视觉服务经常存在组合串接多个模型实现功能的情况。例如在文字识别服务中，先通过检测模型定位文字位置，然后裁切文字所在位置的局部图片，最后送入识别模型得到文字识别结果。
服务中多个模型可能采用不同训练框架，TF-Serving或Troch Serve推理框架只支持单一模型格式，无法满足部署需求。Triton支持多种模型格式，模型之间的组合逻辑可以通过自定义模块（Backend）和集成调度（Ensemble）方式搭建，但实现起来较为复杂，并且整体性能可能存在问题。

拆分后的检测模型和分类模型经过TensorRT优化后采用Triton部署。

拆分微服务的方式充分发挥了GPU运算性能。
https://mp.weixin.qq.com/s/_o7fzCOeuZE6qFc5gHb26g

清华
ChatGLM-6B
https://github.com/THUDM/ChatGLM-6B

大模型
https://www.zhihu.com/question/498275802

模型压缩介绍
https://aieye-top.github.io/d2cl/chapter_compression/quantization.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

WX Chen 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。