在 YMIR 代码正式开源之前,介绍 YMIR 产品的初衷、产品理念和底层产品设计的论文就已经被 Andrew Ng 主办的 NeurIPS Data Centric AI Workshop 接收并进行了宣讲。这个 Workshop 是干什么的,这篇文章又是干什么的,今天让米酱花5分钟时间带你速度品品。
什么是 DCAI
以数据为中心的 AI (DCAI) 代表了从关注AI建模算法到关注用于训练和评估模型的基础数据的转变。过去几年,通用模型架构在各类任务开发中受到大量关注,也取得了快速的进展,并且出现了可预测的模型扩展规则 (Scaling Rules),从而为复杂算法提升模型性能提供了理论参考。虽然构建和使用数据集对这些算法的成功至关重要,但数据集通常是手工构建和维护的——既辛苦又昂贵(比如“有算法人员吐槽80%的时间在编写和修改数据准备工作的脚本”)。AI 社区中缺乏高生产力和高效的开放数据工程工具来使构建、维护和评估数据集更容易、更便宜和更可重复。DCAI 的提出,就是想解决现代机器学习系统中数据管理工具缺乏、最佳实践缺乏和基础设施缺乏的三大问题。