诚邀您莅临CES 2024 North Hall 9078号展台,星尘数据(Stardust AI)将在美国·拉斯维加斯会议中心LVCC(Tech East)与您探讨机器学习全生命周期数据债问题,并发布一站式AI数据管理全新产品MorningStar。敬请期待!
导语
自ChatGPT推出以来,AI行业取得了巨大的进展,在诸多领域中,大语言模型(LLM)的发展尤为迅速,对各行各业带来了深远的影响。ChatGPT的成功尤其令人瞩目,通过分析其论文和数据策略,业内认识到仅仅增加模型参数是不够的,ChatGPT成功的背后离不开海量优质数据的支撑。这使得以数据为中心的人工智能(Data-centric AI)这一新范式从学术界走向了大众,并引起了广泛的讨论。本文将重点探讨以数据为中心的AI,探索其中的数据债问题及解决方案。
一、迈向以数据为中心的人工智能:Data-centric AI
在当下的人工智能领域,一个重要的趋势是从以模型为中心的人工智能(Model-centric AI)向以数据为中心的人工智能(Data-centric AI)转变。这一观点由著名的人工智能科学家吴恩达提出。他指出,以数据为中心的人工智能是一门系统地设计用于构建人工智能系统的数据的学科(Data-centric AI is the discipline of systematically engineering the data used to build an AI system)。吴恩达认为,AI=Data+Code(model/algorithm),对于同一个AI问题,改进数据比改进代码更能提升模型的效果。当前,AI落地的关键在于如何提升数据质量,这一结论在实际应用中得到了验证。
▲ Model-centric AI和Data-centric AI的区别
以金属缺陷检测任务为例(见下图),当检测准确率为76.2%时,以模型为中心的改进策略,对于检测的准确率几乎没有提高。当保持模型不变,只改变训练数据时,检测的准确率提高了16.9%。可以看出,调整模型结构对于准确率的提升效果非常有限,而数据的调整却对算法效果有明显的提升。此结论在多个任务中得到验证。
▲ 数据的调整却对算法效果有明显的提升
为什么会出现以上结果呢?
因为对于AI来说,数据比想象中更为重要。
▲ 数据之于AI犹如食材之于烹饪
吴恩达指出,数据是AI的食物(Data is food for AI)。在真实的人工智能系统构建过程中,算法工程师有80%的时间在处理与数据相关的工作,只有20%的时间用于模型参数、算法的调整。
正如烹饪一道美味佳肴需要花费80%的时间准备食材,而烹饪只占20%,但往往决定菜品好坏的关键在于食材品质和处理。对于人工智能来说,数据质量、数据策略和数据全生命周期的管理在很大程度上决定了模型的上限。
值得一提的是,不仅学术界提出了Data-centric AI的新范式,工业界也有类似的观点。Dimensional Research在2019年5月的调研报告显示,78%的AI项目没有上线应用;VentureBeat在2019年6月的报告发现,87%的AI项目没有部署到生成环境中。这意味着大量AI工程师的工作没有产生实际的业务价值。甚至曾有工程师吐槽,用3周的时间开发出了初始的模型,但经过了11个月的调整模型还没有部署上线。
▲ 来自算法工程师的吐槽
这是为什么呢