在吴恩达老师发起的投票中,80%的人认为以数据为改善中心更重要 (model centric),剩下20%的人认为以模型为中心更重要 (data centric)。就像烹饪,好的食材本身是制作出美食的关键。
然而,在他最近在arXiv上浏览的100篇paper的摘要中,99篇文章的重点是优化模型/算法,只有1篇关注 data augumentation。99%的人关注20%重要性的因素,也告诉我们80%重要性的数据方面值得更多注意力。
两种中心形式的对比:
接着,为了从现实入手,吴恩达老师给了一个建议,提出 Lifecycle of an ML Project:
(留意其中的反馈环节)
1.确立项目目标
2.收集数据,需要考虑lable准则一致(尤其是数据集规模小时);数据规模更大(如百万级以上,标准是good coverage);通过技术使数据增强。
PS:大规模数据可能会存在长尾现象,例如在网络搜索、自动驾驶情景、推荐系统的场景下。
3.Train model
先训练模型,再进行误差分析,其中重点关注算法照顾得不好的数据,例如带有汽车噪声的语音;最后考虑数据增强,例如自动合成这类数据。
关于数据增强,一般先从简单方法入手,例如翻转图片,再考虑比较前沿潮流的生成技术,例如GAN。
4.部署与MLOps的关系
MLOps: Ensuring consistently high-quality data in all stages of the ML project lifecycle.
总结:
1.什么是优质的数据?
2.MLOps在数据方面的作用、AI开发系统(Code + Data)、由Data-centric view 到 Data-centric AI 以及一个具有潜力的重要领域——开发框架,帮助AI中的数据处理系统化。
补充一点:价值正确,符合道德,例如隐私方面。