6月12日,星策社区主办的第三期「Feature Store Meetup」于线上开展,本次活动由思否视频号、CSDN直播间、示说网同步支持,累计观看人次超过4500+。
活动围绕“Feature Store特征平台的建设实践”,特邀星策社区发起人谭中意,分享“ Feature Store的概念与发展概况”;华为商城算法工程师曾中铭,分享“华为商城特征平台建设实践”;第四范式 OpenMLDB PMC 陈迪豪,分享“ OpenMLDB 解决生产环境上线面临的数据特征挑战”,众安保险金融数据应用团队负责人郭育波,分享“众安保险金融特征中台建设”;几位嘉宾分别从技术角度对 Feature Store 的应用实践进行全方位解读。
🌟本文根据四位老师分享的重点内容整理而成,视频回顾见文章末尾,PPT获取请关注公众号「星策开源」并回复「0612」,或加入MLOps爱好者交流群~
精彩内容回顾
Part1:Feature Store概念与应用背景—谭中意
星策社区发起人,开源软件推进联盟副秘书长,开放原子基金会TOC副主席—谭中意,在此次 meetup 中重点介绍了 Feature Store 的概念、与发展情况。
机器学习数据难题
AI System=Code+Data+Model,其中数据问题尤为棘手。数据带来的挑战主要包括五个方面1. Scale-海量的data for training;2. Low Latency-高QPS低延迟的serving;3. Data change cause model decay- world change;4. Time Travel-时序特征数据处理容易出问题;5. Training/Serving skew- 训练和预测使用的数据不一致,当然还有更多。为了解决这些数据问题,在借鉴 DevOps 领域的成功经验后出现了 MLOps 。
MLOps是什么?
MLOps 是面向机器学习领域,为了提高机器学习落地效率而出现的概念。其中涉及角色包括数据科学家和软件工程师。任务包括定义场景、数据收集和整理、模型训练和部署、持续监控和更新,包括 Pipeline 的四个部分,在整个生命周期中的每一环节都需要更快的迭代和更快的反馈。
MLOps 不只是流程和 Pipeline ,还包括以下的工具平台:
- 存储平台:特征和模型的存储和读取
- 计算平台:流式, 批处理特征和模型
- 消息队列:用于接收实时数据
- 调度工具:计算/存储资源的调度
- Feature Store:注册/发现/共享特征
- Model Store:模型的注册/存储/版本等
- Evaluation Store:模型监控/AB测试等 <