pytorch 模型部署

西木风落

于 2024-09-05 09:43:20 发布

阅读量943

点赞数 4

文章标签： pytorch AI模型部署

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenwiehuang/article/details/141920366

版权

AI模型部署基本步骤

在训练好模型后，需要将模型进行部署，一般情况下，AI模型部署基本步骤有：

获取模型文件
对模型进行转换，也就是所谓的parse或者convert
针对转换后的模型进行优化，可能涉及很多优化步骤
在特定平台上运行转化后的模型，保障模型的精度、性能

常见的模型部署推理框架：

Caffeine，纯c++编写
libtorch(torchscript)： pytorch的c++版。pytorch训练出来的模型，经员工torch.jit.trace或者torch.jit.script可以导出为.pt格式，随用通过libtorch中的API加载运行。一般结合TensorRT来部署，TensorRT负责简单卷积层等操作部分，libtorch负责后处理等细小复杂op部分。
TensorRT，可以再NVIDIA各种GPU硬件平台下运行的c++推理框架。在GPU服务器上部署的话，TensorRT是首选；
openVINO，在英特尔CPU端(也就是我们常用的x86处理器)部署首选它
NCNN/MNN/TNN/TVM，在移动端部署的推理框架，据说NCNN为首选，因其简单、直观明了。
paddlepaddle：国产不错的训练和推理框架；

AI部署中提速方法

上述AI模型部署步骤也提到，对模型进行优化，有哪些优化点呢？

模型结构
剪枝
蒸馏
稀疏化训练
量化训练
算子融合、计算图优化
底层优化

1. 模型结构

模型结构主要体现在更快更强的网络结构，比如ResNet相比于VGG，CenterNet相比于YOLOv3。这块没研究透，后续再探；

2. 剪枝

在大模型的基础上，对模型通道或者模型结构进行有目的地修剪，剪掉对模型推理贡献不是很重要的地方，保障精度下降很少或者几乎不变。

3. 蒸馏

先用大网络训练，然后再用大网络调教小网络，使小网络接近大网络的精度。

4. 稀疏化

就是随机将tensor中的部分元素置为0，比如常见的dropout，附带正则化作用的同时也减少了模型的容量，从而加快了模型的推理速度。

5. 量化训练

量化训练是在INT8精度的基础上对模型进行量化。简称QTA(Quantization Aware Training)。量化后的模型在特定CPU或者GPU上相比FP32、FP16有更高的速度和吞吐，也是部署提速方法之一。

模型训练后的转换方式

Pytorch->ONNX->trt onnx2trt
Pytorch->trt torch2trt
Pytorch->torchscipt->trt trtorch

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。