☀️☀️☀️
从产品的角度看,开发一个AI算子还是完整的产品,通常都要经过以下几个步骤:
- 需求分析
- 算法选型
- 数据收集、整理和处理
- 模型训练
- 模型优化
- 部署
- 测试及验收
可能大部分算法工程师都只关注标红的部分(特别是大厂的螺丝钉)不优化模型,不关注部署。但是,如果你想建立壁垒,提升不可替代性,还是想负责更大的模块,甚至是做个全栈的自由职业者,那其他几个也得会,特别是模型优化和部署。
模型优化部分我之前已经写过几篇关于NNI的使用详细教程,基本够用了。
本篇主要想简单介绍下模型部署,之后得空的话再记录下Triton-Inference-Server的使用教程。
模型部署方案
常见的部署分为两种:
- 库+模型
最常见,就是提供dll/so库+模型文件+meta文件供下游调用。一般端侧推理用的比较多,比如指纹锁,智能猫眼,手机美颜等,并且ncnn,mnn这些框架都提供了完整的优化和打包功能。 - 云服务
比较火的,模型即服务(MaaS),部署和计算都在云端,用户通过http/grpc协议发送图像/文本/音频至云端,然后接收推理结果,比较熟知的有torchserve,tensorflow serving,还有本篇介绍的Triton-Inference-Server。
既然已经有那么多优秀的工具,那Triton-Inference-Server的
优势在哪?
首先,它支持多种协议和计算资源:
- 支持GRPC, HTTP/REST;
- 支持不同的backend,如ONNX,Tensorrt,Pytorch,Huggingface,OpenVIVO,paddlepaddle等;
- 支持不同的device类型,如GPU, CPU;
其次,还有比较炸裂的特性:
- 可以动态的batch多个request,提升计算资源利用效率;
- 更高效的资源管理。支持多设备推理,同时可以根据设备状态将request分散在多个设备上进行推理,这一点对大模型友好;
- 支持模型ensemble。可以构建复杂的pipeline,避免数据重复传输;
- 支持模型版本管理;
最后,提供了一些优化工具:
- triton-model-analyzer
- Model Navigator
所以,优势在于
算法工程师完全不需要关注负载均衡、高并发…(毕竟精力有限),
只需要关注模型训练部分就可以构建一个完整的、可靠的、高效的模型服务。
下一篇,通过一个简单的例子,快速了解如何利用Triton-Inference-Server部署模型
未完待续…