面向大规模AI在线推理的可靠性设计

最新推荐文章于 2024-05-25 18:26:01 发布

UCloud_TShare

最新推荐文章于 2024-05-25 18:26:01 发布

阅读量1.3k

点赞数

分类专栏：技术分享文章标签： AI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ucloud_TShare/article/details/81542286

版权

在 AI 项目中，大多时候开发者的关注点都集中在如何进行训练、如何调优模型、如何达到满意的识别率上面。但对于一个完整项目来说，通常是需求推动项目，同时，项目也最终要落到实际业务中来满足需求。

对于常用的 AI 训练和机器学习工具如 TensorFlow，它本身也提供了 AI Serving 工具 TensorFlow Serving。利用此工具，可以将训练好的模型简单保存为模型文件，然后通过的脚本在 TensorFlow Serving 加载模型，输入待推理数据，得到推理结果。

但与拥有较固定计算周期和运行时长的 AI 训练不同，AI 推理的调用会随着业务的涨落而涨落，经常出现类似白天高、夜间低的现象。且在大规模高并发的节点需求情况下，常规的部署方案，明显无法满足此类需求，此时需要使用更专业的 AI 推理模型和扩缩容、负载均衡等技术完成预测推理。

UAI-Inference 采用类似Serverless的架构，通过请求调度算法、定制扩缩容策略，自动完成AI请求的负载均衡，实行节点动态扩容和回收，可提供数万的AI在线推理服务节点。

某AI在线推理一天内的请求访问情况

AI推理（Inference）的在线执行有两大关键因素：一是通过 GPU/CPU 对数据进行快速决策，二是对访问请求的实时响应。下图为某一 AI 在线推理场景 24 小时内的资源使用情况，其中，横轴为时间、纵轴为用户资源请求量，橙色线现表示资源配置情况。

凌晨 00:00-8:00 点&

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
面向大规模AI在线推理的可靠性设计

在 AI 项目中，大多时候开发者的关注点都集中在如何进行训练、如何调优模型、如何达到满意的识别率上面。但对于一个完整项目来说，通常是需求推动项目，同时，项目也最终要落到实际业务中来满足需求。对于常用的 AI 训练和机器学习工具如 TensorFlow，它本身也提供了 AI Serving 工具 TensorFlow Serving。利用此工具，可以将训练好的模型简单保存为模型文件，然后通过的脚...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。