吴恩达2021新课 MLOps 简记

在吴恩达老师发起的投票中,80%的人认为以数据为改善中心更重要 (model centric),剩下20%的人认为以模型为中心更重要 (data centric)。就像烹饪,好的食材本身是制作出美食的关键。

然而,在他最近在arXiv上浏览的100篇paper的摘要中,99篇文章的重点是优化模型/算法,只有1篇关注 data augumentation。99%的人关注20%重要性的因素,也告诉我们80%重要性的数据方面值得更多注意力。
在这里插入图片描述

两种中心形式的对比:
在这里插入图片描述

接着,为了从现实入手,吴恩达老师给了一个建议,提出 Lifecycle of an ML Project:
在这里插入图片描述
(留意其中的反馈环节)

1.确立项目目标

2.收集数据,需要考虑lable准则一致(尤其是数据集规模小时);数据规模更大(如百万级以上,标准是good coverage);通过技术使数据增强。
在这里插入图片描述
在这里插入图片描述
PS:大规模数据可能会存在长尾现象,例如在网络搜索、自动驾驶情景、推荐系统的场景下。

3.Train model

先训练模型,再进行误差分析,其中重点关注算法照顾得不好的数据,例如带有汽车噪声的语音;最后考虑数据增强,例如自动合成这类数据。

关于数据增强,一般先从简单方法入手,例如翻转图片,再考虑比较前沿潮流的生成技术,例如GAN。

4.部署与MLOps的关系
在这里插入图片描述
MLOps: Ensuring consistently high-quality data in all stages of the ML project lifecycle.

总结:

1.什么是优质的数据?

2.MLOps在数据方面的作用、AI开发系统(Code + Data)、由Data-centric view 到 Data-centric AI 以及一个具有潜力的重要领域——开发框架,帮助AI中的数据处理系统化。
在这里插入图片描述
补充一点:价值正确,符合道德,例如隐私方面。

在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值