9 月 26 日,由星策社区成员单位 LF AI & DATA 基金会主办的 AICON 2022 在杭州举行,本次大会齐聚 40 位 AI 领域开源重磅嘉宾,5 家开源企业顶力相助,活动累计观看达到 885819 人。
其中,AI工程化分论坛是本次大会除主论坛外,观看人数最多的分论坛,累计观看达到11w+。来自第四范式、中兴通讯、Kyligence、智源、微软的6位大咖讲师,从理论与实践的角度,阐述了当下 AI 技术发展的应用成果,及 AI 工具成果。以下是根据本论坛6位老师所分享的精彩内容所摘录的重点内容。欢迎一共回顾。
议题一:AI工程化趋势
谭中意 星策社区发起人,第四范式架构师,LF AI & Data TAC成员
AI新趋势
-
AI 在企业中正在加速落地
随着中国企业数字化、智能化转型的浪潮,智能化已经成为了企业必须要做的事情。越来越多的企业在加速落地AI。在第四范式的很多案例里可以看到这种情况。
-
随着数字化智能化转型,更多企业在落地AI
企业内AI的落地场景更多了。比如在一些头部银行、大公司里面落地的AI场景是以千计的。大家可以想象,当一个企业能落地上千的AI场景,那么一定是其中的场景对他们来说是有用、有价值且有效的。
-
AI落地的门槛在变低
以前要做一个AI场景的落地,非常麻烦,且成本相当高。它需要科学家做很多模型与实验,再去上线,因为很多事情是从头做起。但现在,随着预序列的大模型出现,随着OPENMLDB的出现,这些事情都让AI落地的门槛降低了。
从ModelCentric到DataModel的改变—吴恩达
AI在企业落地越来越多,模型的迭代,模型的算法的更新已经到了一个瓶颈,相反更多的是基于数据的运维和操作更能带来模型效果的提升。机器学习生命的各个阶段保持高质量的数据供给。
AI落地的挑战
来自分析师统计87%的AI项目没有部署到生成环境中。原因是AI落地过程中,数据是最重要的,也是最难搞对的,数据要满足以下要求:
-
同时满足训练海量和预测低延迟的需求
-
Model Decay
-
Training/Serving Skew(线上线下一致性)
-
Time Travel
-
实时数据供给
-
更多
AI 落地如何规模化?
-
多:围绕关键业务流程落地多个场景
-
快:每个场景落地时间短,迭代速度快
-
好:每个场景的效果都达到预期
-
省:每个场景落地成本比较节省,符合预期
如何做到以上几点,答案是MLOps。在借鉴devops领域的成熟经验发展MLOps。MLOps = CI + CD + CT + CM,它包含代码、模型、数据,它覆盖机器学习的全生命周期,它同时是持续集成,持续部署,持续训练和持续监控。
MLOps不仅仅是流程和pipeline,它还包括:
-
计算平台:流式、批处理用于特征处理
-
消息队列:用于接收实时数据
-
调度工具:各种资源(计算/存储)的调度
-
Feature Store:注册、发现、共享各种特征
-
Model Store:模型的特征
-
Evaluation Store:模型的监控/ AB测试
-
Serving Tool:如何高效完成预测服务
议题二:开源机器学习数据库OpenMLDB:线上线下一致的生产级特征平台
张 浩 第四范式资深体系架构科学家
在机器学习从开发到上线的闭环中,实时特征计算是其中的重要一环,用于完成数据的实时特征加工。由于其高时效性需求,数据科学家完成特征脚本离线开发以后,往往还需要工程化团队通过大量的优化才能完成上线。另一方面,由于存在离线开发和工程化上线两个流程,线上线下计算一致性验证成为一个必要步骤,并且会耗费大量的时间和人力。基于开源实时特征计算解决方案OpenMLDB,为解决以上两个痛点出发,达到实时特征计