Faas在哈啰AI平台的落地实践

最新推荐文章于 2024-01-02 17:30:00 发布

瓜农老梁

最新推荐文章于 2024-01-02 17:30:00 发布

阅读量160

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzAxMzY2MDYzMA==&mid=2247488361&idx=1&sn=820f9445262d84ce7f788422658b095c&chksm=9b9e6bd0ace9e2c6fdbfca0d7d39d3db86d1cefbb50bc33d3adb0211d36a01ac8491ffb0a864&scene=126&sessionid=0

版权

为什么哈啰AI平台需要Faas

Al平台当前的痛点

一是运维复杂问题，AI平台有多种不同语言的模型推理服务，如python、C++（tf-serving）、Java等，各自管理上百个不同类型的模型；架构也很复杂，存在大型单体应用、多container应用、小型GPU应用等多种服务组织方式；同时，手动运维有余，自动化工具不足。

二是稳定性问题，成百上千模型集中式部署，存在明显热点问题，在应对一些突发流量的时候，自动伸缩速度也存在问题。同时，模型cpu、gpu资源竞争问题也困扰了我们。

三是IDC成本问题，存在资源利用率低的问题，有很大的提升空间。

Al平台对新架构的诉求

Al平台分为在线服务域（决策、特征）和模型训练域（模型、训练），模型平台是模型训练域的一个子域。

我们希望Al平台在应对突发流量时，可以快速响应，保持稳定的服务；对于低频的模型，可以实现缩容到0；对于快速迭代的模型，可以方便进行AB灰度。同时我们希望成本可控、易于运维、易于部署。

云原生演进与Faas选型

从K8s到Faas

Faas能给我们带来极致弹性，可缩容至0；运维成本更低，带来更低的开发复杂度和更好的运维效率。这与AI平台的特点也是分不开的。模型是无状态的，生命周期短，冷启动时间短，业务需求变动快，开发周期短，流量零散而难预测，突发流量多。

Faas技术选型

经过调研，最终花落Knative。Knative支持多元触发，如Eventing/http/grpc触发；同时带来弹性扩缩容的能力，可以缩容到0；在AI平台能带来版本管理和流量分配的能力。

Faas在模型平台的落地实践

模型平台Faas化

模型平台Faas化具有很大的价值。一是是平台能力升级，支持大模型、GPU模型及更多模型类型；二是稳定性收益，通过热点模型隔离，避免多模型混布，来更好的应对突发流量；三是人效收益，GPU模型、大模型全程算法自助发布；四是IDC降本收益，降低模型在线服务成本。

模型Faas部署

我们的模型平台是一个非常完备的平台，无论是算法同学还是工程同学，都可以模型平台上方便的去上传模型，管理模型的入参出参、模型的版本。我们要兼容模型管理的能力，底层有很多异构，如python集群、gpu集群、pmml集群和TF集群等。针对这些异构，我们要用分集群的方式把它变成faas同构的框架。上面有了模型的管理平台，下面有了faas集群，中间的核心是平台路由的改造。当算法和工程同学评估了模型的QPS，可以在平台上勾选faas的一键部署，就能方便的部署到faas集群里，这样就能降低运维成本。

模型自动压测&规格标准化

Faas部署很大程度上依赖服务本身的资源设置&弹性伸缩设置，适当的设置将极大的减少启动时间、平滑弹性伸缩、最大程度节省资源。我们与压测平台合作，打造自动压测能力，评估模型Pod资源和规格标准化，再调用云原生Faas接口进行Faas部署。

Faas冷启动优化

Faas通用的痛点是冷启动速度，我们在思考模型的启动，能否有继续提速的空间。于是就有了模型分发服务，它可以把一些模型资源预下载下来，从原来的150毫秒降低到10毫秒左右的单模型的启动。

Faas模型优雅预热

深度大模型存在预热不充分导致RT突增问题，我们基于Knative的版本管理、流量分配、蓝绿部署等能力，结合自研GraySDK提供了优雅解决方案。

案例：哈啰智能调度Faas改造

智能调度是是两轮领域的核心场景之一。我们每次去做调度的时候，会进行调度收益的核算，用调入收益减去调出损失，再减去调度成本。业务的峰谷波动明显，计算量大，并且每个城市用的模型不一样，模型非常多，适合Faas的落地。这里我们做了定时预测的Faas化，特征能力的Faas化和模型能力的Faas化。通过效果回收，我们发现IDC成本下降了35%，整体性能上升了20%。

我们的调度业务通过无感切换到 Serverless，有效利用 Serverless 免运维、强隔离、按量计费的特性，既实现了得集群不用再为定时任务预留机器资源，同时在高峰期可以迅速大量扩容，提高了系统计算能力，让业务的稳定性也有了很大的提升。

Faas与AI平台的未来展望

Faas在更多应用场景落地

一是特征平台Faas化，特征的冷热分布十分不均匀，当热点特征高峰期时需要整个服务扩容，存在资源浪费、扩容速度慢、资源抢占等风险。二是内部管理后台，很多后台每天只有个别时段会有运营用户使用，但机器却7*24小时提供服务，可以用Faas的按需分配、缩容到0来提高资源利用率。三是定时能力，定时预测能力在某些时间点存在突增流量，且QPS能打到非常高，如果服务维度部署下，存在空闲期资源的极大浪费。

Faas在更多业务领域落地

一是智能客服——聊天机器，智能客服业务存在很多突发流量，比如用户进入客服问答的随机性很大，当舆情来临时的客服流量激增，也非常适合Faas解决方案。二是智能营销——大促等突发流量，互联网业务的发展离不开智能化营销手段，以电商为例，往往半月一小促，一月一大促，需要更灵活的资源调度方式支持营销业务发展。三是IoT传感器信息处理——各种语音精灵，IOT交互设备绝大部分时间都处于待唤醒状态，结合Faas缩容到0且能快速扩容的能力可以大幅提高资源利用率。

瓜农老梁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Faas在哈啰AI平台的落地实践

为什么哈啰AI平台需要FaasAl平台当前的痛点一是运维复杂问题，AI平台有多种不同语言的模型推理服务，如python、C++（tf-serving）、Java等，各自管理上百个不同类型的模型；架构也很复杂，存在大型单体应用、多container应用、小型GPU应用等多种服务组织方式；同时，手动运维有余，自动化工具不足。二是稳定性问题，成百上千模型集中式部署，存在明显热点问题，在应对一些突发流量...
复制链接

扫一扫