推荐:Triton Inference Server

☀️☀️☀️
从产品的角度看,开发一个AI算子还是完整的产品,通常都要经过以下几个步骤:

  • 需求分析
  • 算法选型
  • 数据收集、整理和处理
  • 模型训练
  • 模型优化
  • 部署
  • 测试及验收

可能大部分算法工程师都只关注标红的部分(特别是大厂的螺丝钉)不优化模型,不关注部署。但是,如果你想建立壁垒,提升不可替代性,还是想负责更大的模块,甚至是做个全栈的自由职业者,那其他几个也得会,特别是模型优化和部署。

模型优化部分我之前已经写过几篇关于NNI的使用详细教程,基本够用了。

本篇主要想简单介绍下模型部署,之后得空的话再记录下Triton-Inference-Server的使用教程。

模型部署方案

常见的部署分为两种:

  • 库+模型
    最常见,就是提供dll/so库+模型文件+meta文件供下游调用。一般端侧推理用的比较多,比如指纹锁,智能猫眼,手机美颜等,并且ncnn,mnn这些框架都提供了完整的优化和打包功能。
  • 云服务
    比较火的,模型即服务(MaaS),部署和计算都在云端,用户通过http/grpc协议发送图像/文本/音频至云端,然后接收推理结果,比较熟知的有torchserve,tensorflow serving,还有本篇介绍的Triton-Inference-Server。

既然已经有那么多优秀的工具,那Triton-Inference-Server的

优势在哪?

架构图
首先,它支持多种协议和计算资源:

  • 支持GRPC, HTTP/REST;
  • 支持不同的backend,如ONNX,Tensorrt,Pytorch,Huggingface,OpenVIVO,paddlepaddle等;
  • 支持不同的device类型,如GPU, CPU;

其次,还有比较炸裂的特性:

  • 可以动态的batch多个request,提升计算资源利用效率;
  • 更高效的资源管理。支持多设备推理,同时可以根据设备状态将request分散在多个设备上进行推理,这一点对大模型友好;
  • 支持模型ensemble。可以构建复杂的pipeline,避免数据重复传输;
  • 支持模型版本管理;

最后,提供了一些优化工具:

  • triton-model-analyzer
  • Model Navigator

所以,优势在于
算法工程师完全不需要关注负载均衡、高并发…(毕竟精力有限),
只需要关注模型训练部分就可以构建一个完整的、可靠的、高效的模型服务。

下一篇,通过一个简单的例子,快速了解如何利用Triton-Inference-Server部署模型

未完待续…

  • 7
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@daviiid

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值