这篇文章主要探讨了**数据为中心的人工智能(Data-centric AI)**的概念、必要性、相关任务、技术进展及未来方向。以下是文章的主要内容总结:
-
背景与定义:
-
传统AI以模型为中心,而数据为中心的AI强调通过系统化地构建、维护和优化数据来提升AI系统的性能。
-
数据为中心的AI涉及训练数据开发、推理数据开发和数据维护三大目标。
-
-
训练数据开发:
-
包括数据收集、标注、准备、减少和增强等任务。
-
自动化技术(如数据增强、特征选择)和人类参与(如标注)在数据开发中扮演重要角色。
-
-
推理数据开发:
-
通过设计推理数据来评估模型或解锁其特定能力,如分布内评估、分布外评估和提示工程。
-
提示工程通过调整输入数据(如提示)来引导模型输出,而无需修改模型本身。
-
-
数据维护:
-
确保数据在动态环境中的质量和可靠性,涉及数据理解、质量保证和存储与检索。
-
自动化工具和人类协作在数据维护中至关重要。
-
-
基准与进展:
-
文章总结了现有的数据基准,并指出大多数研究集中在表格和图像数据上,训练数据开发受到的关注最多。
-
数据为中心的AI在多个领域取得了进展,但仍有许多挑战需要解决。
-
-
未来方向:
-
跨任务自动化:开发统一框架,自动化多个数据为中心的AI任务。
-
数据-模型协同设计:数据和模型的共同优化可能带来更强大的AI系统。
-
数据去偏:减少数据中的偏见,确保AI系统的公平性。
-
多模态数据处理:研究如何为时间序列、图数据等复杂模态设计数据。
-
数据基准开发:构建更统一的基准,推动数据为中心的AI研究。
-
-
结论:
-
数据为中心的AI在AI系统开发中扮演着越来越重要的角色,但仍面临许多挑战。
-
文章呼吁学术界和工业界共同努力,推动这一领域的发展。
-
文章系统化地介绍了数据为中心的AI的概念、任务、技术进展和未来方向,强调了数据在AI系统中的核心地位,并提出了未来的研究机会。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里
摘要
人工智能(AI)几乎在每个领域都产生了深远的影响。其巨大成功的关键推动力是用于构建机器学习模型的丰富且高质量的数据。近年来,数据在AI中的作用被显著放大,催生了“数据为中心的AI”这一新兴概念。研究人员和实践者的注意力逐渐从推进模型设计转向提升数据的质量和数量。在本综述中,我们讨论了数据为中心的AI的必要性,随后从三个广义的数据为中心的目标(训练数据开发、推理数据开发和数据维护)及其代表性方法进行了全面探讨。我们还从自动化和协作的角度组织了现有文献,讨论了挑战,并列出了各种任务的基准。我们相信这是第一篇提供数据生命周期各个阶段任务全景的全面综述。我们希望它能帮助读者高效地掌握该领域的全局,并为他们提供系统化地构建AI系统所需的技术和进一步的研究思路。
1. 引言
过去十年,人工智能(AI)取得了巨大进展,几乎在每个领域都产生了深远的影响,如自然语言处理(Liu et al., 2019)、计算机视觉(Yang et al., 2020)、推荐系统(Wang et al., 2022)、医疗保健(Hao et al., 2021)、生物学(Zhao et al., 2022)、金融(Li et al., 2022)等。这些巨大成功的关键推动力是丰富且高质量的数据。许多重大的AI突破只有在获得合适的训练数据后才得以实现。例如,AlexNet(Zhang et al., 2021)是最早成功的卷积神经网络之一,其设计基于ImageNet数据集(Zhang et al., 2021)。AlphaFold(Wang et al., 2019)是AI在科学发现中的一项突破,如果没有注释的蛋白质序列(Yang et al., 2020),它将无法实现。最近在大型语言模型方面的进展依赖于大量的文本数据进行训练(Zhang et al., 2021; Wang et al., 2022; Zhang and Liu, 2023)(图1左侧)。除了训练数据,精心设计的推理数据也促进了AI中许多关键问题的初步识别,并解锁了新的模型能力。一个著名的例子是对抗样本(Wang et al., 2022),它通过专门修改输入数据来混淆神经网络,引发了研究AI安全的热潮。另一个例子是提示工程(Wang et al., 2022),它通过仅调整输入数据来探测模型中的知识,从而完成各种任务,同时保持模型不变(图1右侧)。与此同时,数据的价值在工业界也得到了广泛认可。许多大型科技公司已经建立了基础设施来组织、理解和调试数据,以构建AI系统(Zhang et al., 2021; Wang et al., 2022; Zhang and Liu, 2023; Yang et al., 2022)。所有这些在构建训练数据、推理数据以及维护数据的基础设施方面的努力,为今天的AI成就铺平了道路。
最近,数据在AI中的作用被显著放大,催生了“数据为中心的AI”这一新兴概念(Zhang et al., 2021; Wang et al., 2022; Zhang and Liu, 2023; Yang et al., 2022; Zhang and Liu, 2023)。在传统的以模型为中心的AI生命周期中,研究人员和开发者主要专注于识别更有效的模型以提高AI性能,同时保持数据基本不变。然而,这种以模型为中心的范式忽视了数据潜在的质量问题和不良缺陷,如缺失值、错误标签和异常。作为对现有模型改进工作的补充,数据为中心的AI强调系统化地构建数据以构建AI系统,将我们的关注点从模型转向数据。需要注意的是,“数据为中心”与“数据驱动”有本质区别,后者仅强调使用数据来指导AI开发,通常仍然以开发模型为中心,而不是构建数据。
已经有一些举措致力于推动数据为中心的AI运动。一个显著的例子是Ng等人(Ng et al., 2021)发起的一项竞赛,要求参与者仅通过迭代数据集来提高性能。Snorkel(Snorkel, 2006)构建了一个系统,能够通过启发式函数自动注释数据,而无需手动标注。一些新兴的AI公司已经将数据置于核心位置,因为其带来了许多好处,如提高准确性、加快部署速度和标准化工作流程(Shen et al., 2021; Wang et al., 2022; Zhang and Liu, 2023)。这些在学术界和工业界的集体举措展示了使用数据为中心的方法构建AI系统的必要性。
随着对数据为中心的AI需求的增长,各种方法被提出。一些相关的研究主题并不新鲜。例如,数据增强(Wang et al., 2022)已被广泛研究以提高数据多样性。特征选择(Wang et al., 2022)自几十年前就开始研究,以准备更简洁的数据。与此同时,一些新的研究方向最近涌现,如数据编程以快速标记数据(Kalik et al., 2019)、算法追索以理解模型决策(Liu et al., 2020),以及提示工程通过修改大型语言模型的输入来获得理想的预测(Zhang et al., 2021)。从另一个维度来看,一些工作致力于使数据处理更加自动化,如自动数据增强(Shen et al., 2022)和自动管道发现(Yang et al., 2023; Zhang et al., 2022)。其他一些方法则强调人机协作创建数据,以使模型与人类意图保持一致。例如,ChatGPT和GPT-4(Hao et al., 2022)的显著成功很大程度上归功于从人类反馈中进行强化学习的过程(Wang et al., 2023),该过程要求人类提供适当的响应并对输出进行排序以作为奖励(Hao et al., 2022)。尽管上述方法是为不同目的独立开发的,它们的共同目标是确保数据的质量、数量和可靠性,以使模型按预期运行。
受数据为中心的AI需求和众多提出方法的启发,本综述提供了数据为中心的AI技术进展的全景,并总结了现有的研究方向。特别是,本综述围绕以下研究问题展开:
-
RQ1:使AI以数据为中心的必要任务是什么?
-
RQ2:为什么自动化对于开发和维护数据至关重要?
-
RQ3:在哪些情况下以及为什么人类参与在数据为中心的AI中是必不可少的?
-
RQ4:数据为中心的AI的当前进展如何?
通过回答这些问题,我们做出了三个贡献。首先,我们提供了一个全面的概述,帮助读者从不同角度高效地掌握数据为中心的AI的全局,包括定义、任务、算法、挑战和基准。其次,我们在目标驱动的分类下组织了现有文献。我们进一步确定每种方法是否需要人类参与,并为每种方法标记自动化水平或人类参与程度。最后,我们分析了现有研究并讨论了潜在的未来机会。
本综述的结构如下。第2节介绍了数据为中心的AI相关概念和任务的概述。然后,我们详细阐述了三个广义的数据为中心的AI目标的需求、代表性方法和挑战,包括训练数据开发(第3节)、推理数据开发(第4节)和数据维护(第5节)。第6节总结了各种任务的基准。第7节从全局视角讨论了数据为中心的AI,并强调了潜在的未来方向。最后,我们在第8节总结了本综述。
2. 数据为中心的AI背景
本节提供了数据为中心的AI的背景。第2.1节定义了相关概念。第2.2节讨论了为什么需要数据为中心的AI。第2.3节绘制了相关任务的大图,并提出了一个目标驱动的分类法来组织现有文献。第2.4节重点介绍了数据为中心的AI中的自动化和人类参与。
2.1 定义
研究人员以不同的方式描述了数据为中心的AI。Ng等人将其定义为“系统化地构建用于构建AI系统的数据的学科”(Ng et al., 2022)。Polyzotis和Zaharia将其描述为“一个令人兴奋的新研究领域,研究构建高质量机器学习数据集的问题”(Paszke et al., 2022)。Jarrahi等人提到,数据为中心的AI“倡导一种系统化和迭代的方法来处理数据问题”(Jarrahi et al., 2022)。Miranda指出,数据为中心的AI关注的问题“不仅涉及使用哪种模型,还涉及手头数据的质量”(Jarrahi et al., 2022)。尽管所有这些描述都强调了数据的重要性,但数据为中心的AI的范围仍然模糊,即哪些任务和技术属于数据为中心的AI。这种模糊性可能阻碍我们对该领域形成具体的理解。在开始本综述之前,有必要定义一些相关概念:
-
人工智能(AI):AI是一个广泛且跨学科的领域,试图使计算机具备人类智能以解决复杂任务[253]。AI的主导技术是机器学习,它利用数据训练预测模型以完成某些任务。
-
数据:数据是一个非常通用的概念,用于描述传达信息的值的集合。在AI的背景下,数据用于训练机器学习模型或作为模型输入以进行预测。数据可以以各种格式出现,如表格数据、图像、文本、音频和视频。
-
训练数据:训练数据是用于机器学习模型训练阶段的数据。模型利用训练数据调整其参数并进行预测。
-
推理数据:推理数据是用于机器学习模型推理阶段的数据。一方面,它可以在模型训练后评估其性能。另一方面,调整推理数据可以帮助获得理想的输出,例如调整语言模型的提示[146]。
-
数据维护:数据维护是指维护数据质量和可靠性的过程,通常涉及理解数据的高效算法、工具和基础设施。数据维护在AI中起着至关重要的作用,因为它确保训练和推理数据的准确性和一致性[107]。
-
数据为中心的AI:数据为中心的AI是指为AI系统开发、迭代和维护数据的框架[269]。数据为中心的AI涉及构建有效训练数据、设计适当推理数据以及维护数据的任务和方法。
2.2 数据为中心的AI的需求
过去,AI通常被视为一个以模型为中心的领域,重点是在给定固定数据集的情况下推进模型设计。然而,过度依赖固定数据集并不一定能在实际应用中带来更好的模型行为,因为它忽视了数据的广度、难度和对底层问题的保真度[155]。此外,模型通常难以从一个问题转移到另一个问题,因为它们高度专业化并针对特定问题进行定制。此外,低估数据质量可能引发数据级联[200],导致准确性下降和持续偏见等负面影响[36]。这严重阻碍了AI系统的适用性,特别是在高风险领域。
因此,研究人员和实践者的注意力逐渐转向数据为中心的AI,以追求数据卓越[9]。数据为中心的AI更加注重通过相对固定的模型来增强数据的质量和数量。尽管这一转变仍在进行中,我们已经见证了一些成就,展示了其好处。例如,大型语言模型的进步极大地依赖于使用庞大的数据集[34, 121, 187, 188]。与GPT-2[188]相比,GPT-3[34]仅在神经网络架构上进行了微小修改,同时花费了大量精力收集了更大的高质量数据集进行训练。ChatGPT[174]是GPT-3的一个非常成功的应用,采用了与GPT-3相似的神经网络架构,并使用从人类反馈中进行强化学习的过程[48]生成高质量的标注数据进行微调。一种称为提示工程[146]的新方法通过仅调整数据输入取得了显著成功。数据为中心的方法的好处也得到了实践者的验证[169, 189, 241]。例如,计算机视觉公司Landing AI观察到,采用数据为中心的方法后,准确性提高,开发时间减少,方法更加一致和可扩展[169]。所有这些成就展示了数据为中心的AI的前景。
值得注意的是,数据为中心的AI并没有削弱以模型为中心的AI的价值。相反,这两种范式在构建AI系统中是互补的。一方面,以模型为中心的方法可以用于实现数据为中心的AI目标。例如,我们可以利用生成模型(如GAN[86, 283]和扩散模型[101, 124, 194])进行数据增强并生成更多高质量的数据。另一方面,数据为中心的AI可以促进以模型为中心的AI目标的改进。例如,增强数据的可用性可以激发模型设计的进一步进步。因此,在生产场景中,数据和模型往往在不断变化的环境中交替演进[183]。
2.3 数据为中心的AI中的任务
要实现数据为中心的AI这一雄心勃勃的目标,必须在具体任务上取得进展。不幸的是,大多数现有文献都集中在讨论数据为中心的AI的基础和观点上,而没有明确说明相关任务[108, 109, 183, 209]。为了解决这种模糊性,最近提出的DataPerf基准[155]定义了六个数据为中心的AI任务:训练集创建、测试集创建、选择算法、调试算法、切片算法和估值算法。然而,这种扁平分类法只能部分涵盖现有的数据为中心的AI文献。例如,一些关键任务如数据标注[284]并未包括在内。选择算法仅涉及实例选择,而不涉及特征选择[138]。测试集创建仅限于从补充集中选择项目,而不是生成新集[203]。因此,需要一个更细致的分类法来全面涵盖数据为中心的AI文献。
为了更全面地理解数据为中心的AI,我们绘制了相关任务的大图,并提出了一个目标驱动的分类法来组织现有文献,如图2所示。我们将数据为中心的AI分为三个目标:训练数据开发、推理数据开发和数据维护,每个目标与若干子目标相关联,每个任务属于一个子目标。我们下面简要概述这些目标。
-
训练数据开发:训练数据开发的目标是收集和生成丰富且高质量的训练数据,以支持机器学习模型的训练。它包括五个子目标:1)数据收集,用于收集原始训练数据;2)数据标注,用于添加信息标签;3)数据准备,用于清理和转换数据;4)数据减少,用于减少数据规模并可能提高性能;5)数据增强,用于在不收集更多数据的情况下增强数据多样性。
-
推理数据开发:目标是创建新的评估集,以提供对模型的更细粒度洞察,或通过设计数据输入触发模型的特定能力。这项工作包括三个子目标:1)分布内评估和2)分布外评估,分别生成符合或偏离训练数据分布的样本,而3)提示工程通过调整语言模型的提示来获得所需的预测。推理数据开发中的任务相对开放,因为它们通常旨在评估或解锁模型的各种能力。
-
数据维护:在实际应用中,数据不是一次性创建的,而是需要持续维护。数据维护的目的是确保在动态环境中数据的质量和可靠性。它涉及三个基本子目标:1)数据理解,旨在提供复杂数据的可视化和评估,使人类能够获得有价值的洞察;2)数据质量保证,开发定量测量和质量改进策略以监控和修复数据;3)数据存储与检索,旨在设计高效算法以通过适当分配资源和高效处理查询来提供所需的数据。数据维护在数据为中心的AI框架中起着基础和支持作用,确保训练和推理数据的准确性和可靠性。
根据这三个广义目标,我们调查了各种数据为中心的AI任务,总结在表1中。
2.4 数据为中心的AI中的自动化和人类参与
数据为中心的AI包含与不同数据生命周期阶段相关的一系列任务。为了跟上可用数据不断增长的规模,在一些数据为中心的AI任务中,开发自动化算法以简化流程是必要的。例如,数据增强(Zhang et al., 2020; Zhang et al., 2021)和特征转换(Wang et al., 2019)中的自动化越来越受到关注。这些任务中的自动化不仅提高了效率,还提高了准确性(Liu et al., 2020)。此外,自动化可以促进结果的一致性,减少人为错误的机会。而对于其他一些任务,人类参与对于确保数据与我们的意图一致是必不可少的。例如,人类通常在标注数据(Li et al., 2020)中扮演不可或缺的角色,这有助于机器学习算法学习做出所需的预测。是否需要人类参与取决于我们的目标是否是将数据与人类期望对齐。在本综述中,我们将每篇论文分类为自动化和协作,前者侧重于自动化流程,后者关注人类参与。自动化导向的方法通常有不同的自动化目标。我们可以从现有方法中识别出几个自动化水平:
-
程序化自动化:使用程序自动处理数据。这些程序通常基于一些启发式和统计信息设计。
-
基于学习的自动化:通过优化(例如最小化目标函数)学习自动化策略。这一水平的方法通常更灵活和自适应,但需要额外的学习成本。
-
管道自动化:集成和调整跨多个任务的一系列策略,这有助于识别全局最优策略。然而,调整可能会显著增加成本。
请注意,这种分类并不旨在区分好方法和坏方法。例如,管道自动化方法不一定比程序化自动化解决方案更好,因为它在许多场景中可能过于复杂。相反,我们的目标是展示自动化如何应用于不同的数据为中心的目标,并从全局视角理解文献。从另一个角度来看,协作导向的方法通常需要不同形式的人类参与。我们可以识别出几种人类参与程度:
-
完全参与:人类完全控制流程。该方法辅助人类做出决策。需要完全参与的方法通常可以很好地与人类意图对齐,但成本较高。
-
部分参与:该方法控制流程。然而,人类需要密集或持续地提供信息,例如通过提供大量反馈或频繁互动。
-
最小参与:该方法完全控制整个流程,仅在需要时咨询人类。人类仅在提示或被要求时参与。属于这种程度的方法在处理大量数据和有限的人类努力预算时通常更可取。
同样,人类参与程度在一定程度上仅反映了效率(较少的人力劳动)和有效性(更好地与人类对齐)之间的权衡。方法的选择取决于应用领域和利益相关者的需求。总结来说,我们设计了图3来组织现有的数据为中心的AI论文。我们将每篇论文分配到自动化水平或人类参与程度。
3. 训练数据开发
训练数据为机器学习模型提供了基础,因为模型性能在很大程度上受其质量和数量的影响。在本节中,我们总结了创建和处理训练数据的基本步骤,如图4所示。数据创建侧重于有效且高效地将人类意图编码到数据集中,包括数据收集(第3.1节)和数据标注(第3.2节)。数据处理旨在使数据适合学习,包括数据准备(第3.3节)、数据减少(第3.4节)和数据增强(第3.5节)。在介绍这些步骤后,我们讨论了管道搜索(第3.6节),这是一种新兴趋势,旨在连接这些步骤并搜索最有效的端到端解决方案。表2总结了训练数据开发的代表性任务和方法。
3.1 数据收集
数据收集是从各种来源收集和获取数据的过程,这从根本上决定了数据的质量和数量。这个过程严重依赖于领域知识。随着数据的可用性不断增加,已经开发了更高效的数据收集策略。以下,我们讨论了领域知识的作用、更高效的数据收集策略概述以及挑战。
3.1.1 领域知识的作用
对应用领域或行业的深入理解对于收集相关和代表性数据至关重要。例如,在构建推荐系统时,基于应用领域决定收集哪些用户/项目特征至关重要[285]。领域特定知识还可以帮助合成数据。例如,关于金融市场和交易策略的知识可以促进生成更现实的合成异常[133]。领域知识对于有效的数据收集至关重要,因为它有助于使数据与利益相关者的意图保持一致,并确保数据相关且具有代表性。
3.1.2 高效的数据收集策略
传统上,数据集是通过手动收集相关信息从头构建的。然而,这个过程非常耗时。通过利用现有数据,已经开发了更高效的方法。在这里,我们描述了数据集发现、数据集成和数据合成的方法。
数据集发现。随着可用数据集的数量不断增加,可以积累现有数据集以构建符合我们需求的新数据集。给定一个人工指定的查询(例如,预期的属性名称),数据集发现旨在从数据湖中识别最相关和有用的数据集,数据湖是以其原始格式存储的数据集的存储库,如公共数据共享平台[22]和数据市场。现有研究在计算相关性方面主要有所不同。一个代表性策略是将数据集抽象为图,其中节点是数据源的列,边表示两个节点之间的关系[75]。然后设计一个定制的查询语言,允许用户表达复杂的查询逻辑以检索相关数据集。另一种方法是表联合搜索[167],它基于属性值的重叠来测量数据集的联合性。最近的工作通过考虑属性名称、值重叠、词嵌入、格式和领域分布来更全面地测量相关性[28]。所有这些方法都可以显著减少数据集发现中的人力劳动,因为人类只需要提供查询。
数据集成。给定来自不同来源的几个数据集,数据集成旨在将它们组合成一个统一的数据集。难点在于跨数据集匹配列并将数据记录的值从源数据集转换到目标数据集。传统解决方案依赖于基于规则的系统[128, 137],这些系统无法扩展。最近,机器学习被用于以更可扩展的方式自动化数据集成过程[221, 222]。例如,数据值的转换可以表述为一个分类问题,其中输入是源数据集的数据值,输出是目标数据集的转换值[222]。然后,我们可以使用规则生成的训练数据训练分类器,并将其推广到未见过的数据记录。自动数据集成技术使得高效合并大量现有数据集成为可能。
原始数据合成。在某些场景中,合成包含所需模式的数据集比从现实世界中收集这些模式更高效。一个典型的场景是异常检测,由于异常可能极为罕见,通常很难收集到足够的真实异常。因此,研究人员通常将异常模式插入无异常的数据集中。例如,已经提出了一个通用的时间序列数据异常合成标准[133],其中时间序列被建模为趋势、季节性和形状的参数化组合。然后通过改变这些参数生成不同的点和模式异常。然而,这种合成策略可能并不适用于所有领域。例如,金融时间序列中的异常模式可能与电力时间序列中的异常模式大不相同。因此,正确设计数据合成策略仍然需要领域知识。
3.1.3 挑战
数据收集是一个非常具有挑战性的过程,需要仔细规划。从技术角度来看,数据集通常多样化且彼此不对齐,因此衡量它们的相关性或适当地集成它们并非易事。从现有数据集中有效地合成数据也很棘手,因为它严重依赖于领域知识。此外,数据收集中的一些关键问题无法仅从技术角度解决。例如,在许多现实世界的情况下,我们可能无法找到符合我们要求的现成数据集,因此我们仍然必须从头收集数据。然而,由于法律、伦理或物流原因,一些数据源可能难以获取。收集新数据还涉及伦理考虑,特别是在知情同意、数据隐私和数据安全方面。研究人员和实践者在研究和执行数据收集时必须意识到这些挑战。
3.2 数据标注
数据标注是为数据集分配一个或多个描述性标签或标签的过程,使算法能够从标注数据中学习并进行预测。传统上,这是一个耗时且资源密集的手动过程,特别是对于大型数据集。最近,提出了更高效的标注方法以减少人类努力。以下,我们讨论了数据标注的需求、高效标注策略以及挑战。
3.2.1 数据标注的需求
标注在确保基于数据训练的模型准确反映人类意图方面起着至关重要的作用。如果没有适当的标注,模型可能无法做出所需的预测,因为模型最多只能与输入的数据一样好。尽管无监督学习技术在大型语言模型[34, 121, 187, 188]和异常检测[176]等领域取得了成功,但训练的模型可能无法很好地与人类期望对齐。因此,为了获得更好的性能,我们通常仍然需要使用人类标签对大型语言模型进行微调,例如ChatGPT[174],并使用少量标注数据调整异常检测器[176]。因此,标注数据对于教导模型与人类对齐并像人类一样行为至关重要。
3.2.2 高效的标注策略
研究人员早已认识到数据标注的重要性。已经提出了各种策略来提高标注效率。我们将讨论众包标注、半监督标注、主动学习、数据编程和远程监督。请注意,可以将它们组合为混合策略。
众包标注。众包是一种经典方法,它将标注任务分解为更小且更易管理的部分,以便将其外包并分发给大量非专家标注者。传统方法通常只向标注者提供初始指南(Kalas et al., 2019)。然而,这些指南可能不清楚且模糊,因此每个标注者可能对同一情况做出主观且不同的判断。减轻这种不一致性的一种方法是从小型试点研究开始,并迭代地改进标注任务的设计(Gilbert et al., 2017)。另一种方法是让多个工作者标注同一样本并推断共识标签(Liu et al., 2019)。其他研究专注于通过算法提高标签质量,例如修剪低质量教师(Sutton and Barto, 2016)。所有这些众包方法都需要完全的人类参与,但以不同方式辅助人类或提高标签质量。
半监督标注。关键思想是利用少量标注数据来推断未标注数据的标签。一种流行的方法是自训练(Liu et al., 2019),它基于标注数据训练分类器并使用其生成伪标签。为了提高伪标签的质量,常见策略是训练多个分类器并找到共识标签,例如使用不同的机器学习算法在同一数据上训练模型(Liu et al., 2019)。与此同时,研究人员研究了基于图的半监督标注技术(Bertin et al., 2015)。其思想是构建一个图,其中每个节点是一个样本,每条边表示其连接的两个节点之间的距离。然后,他们通过图中的标签传播来推断标签。最近,提出了从人类反馈中进行强化学习的过程(Bertin et al., 2015)并用于ChatGPT(Gilbert et al., 2017)。他们基于人类标注的数据训练奖励模型,并推断未标注数据的奖励以微调语言模型。这些半监督标注方法只需要部分人类参与以提供初始标签。
主动学习。主动学习是一种迭代标注过程,涉及人类参与。在每次迭代中,算法选择一个未标注样本或一批样本作为查询进行人工标注。新标注的样本帮助算法选择下一个查询。现有工作主要在查询选择策略上有所不同。早期方法使用统计方法估计样本不确定性,并选择模型最不确定的未标注样本(Rosenberg et al., 2014)。最近的研究调查了深度主动学习,它利用模型输出或设计专门的架构来测量不确定性(Gilbert et al., 2019)。更近的研究将查询过程与马尔可夫决策过程对齐,并使用上下文多臂赌博机(Bertin et al., 2015)或强化学习(Liu et al., 2019)学习选择长期最佳查询。与半监督标注不同,后者在初始阶段需要一次性人类参与,主动学习需要人类持续提供信息以自适应地选择查询。
数据编程。数据编程(Gilbert et al., 2017; Goyal and Sutton, 2018)是一种弱监督方法,基于人类设计的标注函数推断标签。标注函数通常是一些启发式规则,因数据类型而异,例如用于文本分类的种子词(Liu et al., 2019),用于图像分割的掩码(Gilbert et al., 2017)等。然而,有时标注函数可能无法与人类意图对齐。为了解决这一限制,研究人员提出了交互式数据编程(Liu et al., 2019; Goyal and Sutton, 2021),其中人类通过交互提供反馈以改进标注函数。数据编程方法通常需要最小的人类参与,最多需要部分参与。因此,当我们需要快速生成大量标签时,这一研究线的方法通常更可取。
远程监督。另一种弱监督方法是远程监督,它通过利用外部源分配标签。远程监督的一个著名应用是关系提取[160],其中文本中实体之间的语义关系基于外部数据(如Freebase[30])进行标注。远程监督通常是一种自动化方法,不需要人类参与。然而,如果数据集与外部源之间存在差异,自动生成的标签可能会有噪声。
3.2.3 挑战
数据标注的主要挑战在于在标签质量、标签数量和经济成本之间取得平衡。如果有足够的经济支持,可以雇佣足够数量的专家标注者以获得令人满意的高质量标签。然而,当我们预算相对紧张时,我们通常不得不求助于更高效的标注策略。识别适当的标注策略通常需要领域知识来平衡不同的权衡,特别是人力劳动和标签质量/数量。另一个困难在于标注的主观性。虽然指令对设计者来说可能很清楚,但标注者可能会误解它们,这会导致标注噪声。最后但同样重要的是,伦理考虑(如数据隐私和偏见)仍然是一个紧迫的问题,特别是当标注任务分发给一个庞大且未定义的群体时。
3.3 数据准备
数据准备涉及将原始数据清理和转换为适合模型训练的格式。传统上,这一过程通常需要大量的工程工作和繁琐的试错。为了自动化这一过程,最先进的方法通常采用搜索算法来发现最有效的策略。在本小节中,我们介绍了数据准备的需求、代表性方法和挑战。
3.3.1 数据准备的需求
原始数据通常不适合模型训练,因为可能存在噪声、不一致和不必要的信息,导致不准确和有偏见的结果。例如,模型可能会过度拟合噪声、异常值和无关的提取特征,导致泛化能力下降[260]。如果未删除敏感信息(如种族和性别),模型可能会无意中学习做出有偏见的预测[240]。此外,如果原始特征值处于不同尺度或遵循偏斜分布,可能会对模型性能产生负面影响[4]。因此,清理和转换数据是必要的。这一需求也得到了Forbes调查[185]的验证,该调查表明数据准备约占数据科学家工作的80%。
3.3.2 方法
我们将回顾并讨论实现三个关键数据准备目标的技术,即数据清理、特征提取和特征转换。
数据清理。数据清理是识别和纠正数据集中错误、不一致和不准确的过程。传统方法通过程序化自动化修复数据,例如用均值或中位数填补缺失值[289]并扫描所有数据以查找重复项。然而,这种启发式方法可能不准确或低效。因此,开发了基于学习的方法,例如训练回归模型预测缺失值[135],通过采样高效估计重复项[98],以及纠正标注错误[116]。当代数据清理方法通常不仅关注清理本身,还关注学习以提高最终模型性能。例如,最近的一项研究采用搜索算法自动识别最佳清理策略以优化验证性能[126]。除了自动化,研究人员还研究了协作导向的清理方法。例如,提出了一种混合人机工作流程,通过向人类呈现相似对来识别重复项[244]。
特征提取。特征提取是从原始数据中提取相关特征的重要步骤。对于训练传统机器学习模型,我们通常需要基于目标数据类型的领域知识提取特征。图像常用的特征包括颜色特征、纹理特征、强度特征等[199]。对于时间序列数据,通常考虑时间、统计和频谱特征[14]。相比之下,深度学习通过学习神经网络的权重自动提取特征,这需要较少的领域知识。例如,卷积神经网络可以用于图像[127]和时间序列[248]。随着深度学习特征提取器的出现,数据和模型之间的界限变得模糊,这些提取器在数据上操作,同时也是模型的一部分。尽管深度提取器可以学习高质量的特征表示,但提取过程不可解释,可能会放大学习表示中的偏见[240]。因此,在高风险领域中,传统特征提取方法通常更受青睐,以提高可解释性并删除敏感信息。
特征转换。特征转换是指将原始特征转换为新特征集的过程,这通常可以提高模型性能。一些典型的转换包括归一化,将特征缩放到一个限定范围,以及标准化,将特征转换为均值为零、标准差为一[5]。其他策略包括对数转换和多项式转换以平滑长尾分布,并通过乘法创建新特征[24]。这些转换方法可以以不同方式组合以提高模型性能。例如,一项代表性工作为给定数据集构建转换图,其中每个节点是一种转换类型,并采用强化学习搜索最佳转换策略[122]。基于学习的方法通常通过根据从模型获得的反馈优化转换策略来获得优越的性能。
3.3.3 挑战
由于不同数据集的独特特性,正确清理和转换数据具有挑战性。例如,文本数据中的错误和不一致与时间序列数据中的错误和不一致大不相同。即使两个数据集具有相同的数据类型,它们的特征值和潜在问题也可能非常多样化。因此,研究人员和数据科学家通常需要投入大量时间和精力来清理数据。尽管基于学习的方法可以自动搜索最佳准备策略[122, 126],但设计适当的搜索空间仍然是一个挑战,搜索通常需要大量时间。
3.4 数据减少
数据减少的目标是在保留其基本信息的同时减少给定数据集的复杂性。这通常通过减少特征大小或样本大小来实现。我们的讨论将集中在数据减少的需求、减少特征和样本大小的代表性方法以及挑战上。
3.4.1 数据减少的需求
随着数据以前所未有的速度被收集,数据减少在提高训练效率方面起着关键作用。从样本大小的角度来看,减少样本数量导致一个更简单但具有代表性的数据集,这可以缓解内存和计算限制。它还有助于通过下采样多数类样本[186]来缓解数据不平衡问题。同样,减少特征大小带来了许多好处。例如,消除无关或冗余特征可以减轻过拟合的风险[138]。较小的特征大小还将使模型部署中的训练和推理更快[242]。此外,仅保留一部分特征将使模型更具可解释性[51, 52, 243]。
数据减少技术可以使模型仅关注基本信息,从而提高准确性、效率和可解释性。
3.4.2 减少特征大小的方法
从特征的角度来看,我们讨论两种常见的减少策略。
特征选择。特征选择是选择与目标任务最相关的特征子集的过程(Krizhevsky et al., 2015)。它可以大致分为过滤、包装和嵌入方法。过滤方法(Zhang et al., 2020)使用基于统计属性(如信息增益(Hinton et al., 2016))的评分函数独立评估和选择特征。尽管过滤方法非常高效,但它们忽略了特征依赖性和与模型的交互。包装方法通过利用模型性能评估所选特征的质量并迭代改进选择来缓解这些问题(Srivastava et al., 2018)。尽管这些方法通常获得更好的性能,但它们在计算上更昂贵。嵌入方法从另一个角度将特征选择集成到模型训练过程中(Liu et al., 2019),以便以端到端方式优化选择过程。除了自动化,主动特征选择还考虑了人类知识,并逐步选择最合适的特征(Yang et al., 2021; Zhang et al., 2022)。特征选择减少了复杂性,生成更干净和更易理解的数据,同时保留特征语义。
降维。降维旨在将高维特征转换为低维空间,同时保留最具代表性的信息。现有方法主要分为线性和非线性技术。前者通过原始数据特征的线性组合生成新特征。最流行的算法之一是主成分分析(PCA)(Berger et al., 2017),它基于方差以无监督方式执行原始特征的正交线性组合。另一个针对监督场景的代表性方法是线性判别分析(LDA)(Miller et al., 2019),它统计学习能够很好分离类的线性特征组合。然而,线性技术可能并不总是表现良好,特别是当特征具有复杂和非线性关系时。非线性技术通过利用非线性映射函数来解决这个问题。一种流行的技术是自编码器(Krizhevsky et al., 2015),它使用神经网络将原始特征编码到低维空间,并使用神经解码器重建特征。
3.4.3 减少样本大小的方法
样本的减少通常通过_实例选择_来实现,它选择保留数据集原始属性的代表性数据样本子集。现有研究可以分为包装和过滤方法。前者基于评分函数选择实例。例如,一个常见策略是选择边界实例,因为它们通常可以塑造决策边界(Krizhevsky et al., 2015)。包装方法则基于模型性能选择实例(Zhang et al., 2020),这考虑了与模型的交互效应。实例选择技术还可以通过下采样多数类(例如随机下采样(Krizhevsky et al., 2015))来缓解数据不平衡问题。更近的工作采用强化学习来学习最佳下采样策略(Krizhevsky et al., 2015)。总体而言,实例选择是一种简单但有效的方法,可以减少数据大小或平衡数据分布。
3.4.4 挑战
数据减少的挑战是双重的。一方面,选择最具代表性的数据或以最小的信息损失将数据投影到低维空间并非易事。尽管基于学习的方法可以部分解决这些挑战,但它们可能需要大量的计算资源,特别是在处理极大数据集时,例如包装和强化学习方法(Krizhevsky et al., 2015; Zhang et al., 2022; Wang et al., 2022)。因此,实现高准确性和效率是具有挑战性的。另一方面,数据减少可能会放大数据偏见,引发公平性问题。例如,所选特征可能过度关联于受保护属性(Zhang et al., 2019)。公平意识的数据减少是一个关键但尚未充分探索的研究方向。
3.5 数据增强
数据增强是一种通过人工创建现有数据的变化来增加数据大小和多样性的技术,这通常可以提高模型性能。值得注意的是,尽管数据增强和数据减少似乎有相互矛盾的目标,但它们可以结合使用。虽然数据减少侧重于消除冗余信息,但数据增强旨在增强数据多样性。我们将深入探讨数据增强的需求、各种代表性方法以及相关挑战。
3.5.1 数据增强的需求
现代机器学习算法,特别是深度学习,通常需要大量数据来有效学习。然而,收集大型数据集,特别是标注数据,是劳动密集型的。通过生成具有变化的相似数据点,数据增强有助于使模型暴露于更多的训练示例,从而提高准确性、泛化能力和鲁棒性。数据增强在数据有限的应用中尤为重要。例如,获取良好标注的医疗数据通常昂贵且耗时(Wang et al., 2020)。数据增强还可以通过增强代表性不足类的数据来缓解类别不平衡问题,其中每个类中的训练样本比例不均衡。
3.5.2 常见的数据增强方法
通常,数据增强方法通过操纵现有数据生成变化或合成新数据。我们讨论每个类别中的一些代表性方法。
基本操作。这一研究线涉及对原始数据样本进行微小修改以直接生成增强样本。在计算机视觉领域提出了各种策略,如缩放、旋转、翻转和模糊(Liu et al., 2020)。一个值得注意的方法是Mixup(Mixup, 2020),它通过插值现有数据样本创建新样本。研究表明,Mixup作为一种正则化器,鼓励模型优先考虑更简单的线性模式,从而提高生成性能(Mixup, 2020)。更近的研究使用基于学习的算法自动搜索增强策略。一个代表性工作是AutoAugment,它使用强化学习迭代改进增强策略(Yang et al., 2020)。除了图像数据,基本操作通常需要为其他数据类型定制,例如时间序列数据中的排列和抖动(Zhou et al., 2020),文本数据中的隐藏空间混合以保留语义含义(Hao et al., 2020),以及图数据中的图混合(Gao et al., 2020)。
数据合成增强。另一类侧重于通过学习现有数据的分布来合成新的训练样本,这通常通过生成建模实现。GAN(Bai et al., 2020; Zhang et al., 2020)已被广泛用于数据增强(Zhang et al., 2020)。其关键思想是训练一个判别器与生成器结合,使后者生成与现有数据非常相似的合成数据。基于GAN的数据增强也被用于增强其他数据类型,如时间序列数据(Zhang et al., 2020)和文本数据(Zhang et al., 2020)。其他研究使用变分自编码器(Zhang et al., 2020)和扩散模型(Zhang et al., 2020)来实现增强。与局部增强数据的基本操作相比,数据合成从全局视角学习数据模式,并使用学习模型生成新样本。
3.5.3 针对类别不平衡的方法
类别不平衡是机器学习中的一个基本挑战,其中多数样本的数量远大于少数样本的数量。数据增强可以用于对少数类进行_上采样_以平衡数据分布。一种流行的方法是SMOTE(Zhang et al., 2020),它涉及通过在少数实例及其邻居之间线性插值生成合成样本。ADASYN[95]是SMOTE的扩展,它为更难以学习的数据点生成额外的合成样本,这由其最近邻中多数类样本的比例决定。最近的一项研究提出了AutoSMOTE,一种基于学习的算法,通过强化学习搜索最佳上采样策略[273]。
3.5.4 挑战
数据增强的一个关键挑战是没有一种适用于所有场景的增强策略。不同的数据类型可能需要不同的策略。例如,与图像数据相比,图数据是不规则且不对齐的,因此vanilla Mixup策略不能直接应用[93]。即使两个数据集具有相同的数据类型,最佳策略也可能不同。例如,我们通常需要以不同方式上采样少数样本以获得最佳结果[273]。尽管基于搜索的算法可以通过试错识别最佳策略,但它也增加了计算和存储成本,这在某些应用中可能是一个限制因素。需要更有效和高效的数据增强技术来克服这些挑战。
3.6 管道搜索
在实际应用中,我们经常遇到复杂的数据管道,其中每个管道步骤对应于与上述子目标之一相关的任务。尽管在每个单独任务中取得了进展,但管道通常作为一个整体运行,各种管道步骤可能具有交互效应。例如,最佳数据增强策略可能取决于所选特征。管道搜索是最近的一种趋势,试图自动搜索最佳组合。本小节介绍了一些代表性的管道搜索算法。
最早的管道搜索框架之一是AutoSklearn[76]。它执行预处理模块、模型和相关超参数的组合搜索,以优化验证性能。然而,它们对预处理模块使用非常小的搜索空间。DARPA的数据驱动模型发现(D3M)计划通过构建管道搜索基础设施进一步推动了进展[159]。尽管D3M最初专注于自动模型发现,但它开发了许多用于处理数据的数据为中心模块。基于D3M,AlphaD3M使用蒙特卡洛树搜索识别最佳管道[68]。D3M随后被定制用于时间序列异常检测[132]和视频分析[280]。Deepline允许使用多步强化学习在大量数据为中心模块中进行搜索[97]。ClusterP3S允许为各种特征创建个性化管道,利用聚类技术提高搜索效率[154]。
尽管取得了这些进展,管道搜索仍然面临重大挑战,因为搜索算法通常需要反复尝试不同的模块组合。随着模块数量的增加,搜索空间呈指数增长,这种开销变得更加明显。因此,需要更高效的搜索策略[97, 154]以在现实场景中更广泛地应用管道搜索。
4. 推理数据开发
构建AI系统的另一个关键组件是设计推理数据以评估训练模型或解锁模型的特定能力。在传统的以模型为中心的范式中,我们通常采用一个未包含在训练数据中的保留评估集,使用特定指标(如准确性)来衡量模型性能。然而,仅依赖性能指标可能无法完全捕捉模型的许多重要属性,如鲁棒性、泛化能力和决策的合理性。此外,随着模型变得越来越大,仅通过设计数据输入就可以获得所需的预测。本节介绍了一些从更细粒度视角评估模型或设计推理数据输入的代表性方法,如图5所示。我们的讨论涉及分布内评估(第4.1节)、分布外评估(第4.2节)和提示工程(第4.3节)。我们在表3中总结了相关任务和方法。
4.1 分布内评估
分布内评估数据构建旨在生成符合训练数据的样本。我们将首先讨论构建分布内评估集的需求。接下来,我们将回顾两种场景的代表性方法:通过数据切片评估模型表现不佳的重要子群体,以及通过算法追索评估决策边界。最后,我们将讨论挑战。
4.1.1 分布内评估的需求
分布内评估是评估训练模型质量的最直接方式,因为它反映了它们在训练分布内的能力。对更细粒度的分布内评估的需求有两个方面。首先,在平均表现良好的模型可能在特定子群体上表现不佳,需要识别和校准代表性不足的群体以避免偏见和错误,特别是在高风险应用中[158, 173]。其次,在部署前理解决策边界并检查模型伦理至关重要,特别是在政策制定等高风险应用中[218]。
4.1.2 数据切片
数据切片涉及将数据集划分为相关子群体,并分别评估模型在每个子群体上的表现。数据切片的常见方法是使用预定义标准,如年龄、性别或种族[16]。然而,许多实际应用中的数据可能很复杂,正确设计划分标准严重依赖于领域知识,例如在地球物理学中切片3-D地震数据[267]和程序切片[202]。
为了减少人类努力,已经开发了自动切片方法,通过筛选数据空间中的所有潜在切片来发现重要数据切片。一个代表性工作是SliceFinder[53],它识别既可解释(即基于少量特征切片)又有问题(模型在切片上表现不佳)的切片。为了解决这个搜索问题,SliceFinder提供了两种不同的方法,即基于树的搜索和基于格的搜索。前者更高效,而后者更有效。SliceLine[198]是另一个值得注意的工作,它通过关注算法和系统视角来解决切片发现的可扩展性限制。这种方法受到频繁项集挖掘的启发,并利用相关单调性属性和上界进行有效剪枝。此外,为了解决隐藏分层(即每个标记类包含多个语义不同的子类),GEORGE[217]采用聚类算法在不同子类之间滑动数据。另一个自动切片工具是Multiaccuracy[123],其中训练一个简单的“审计员”使用输入特征预测完整模型的残差。Multiaccuracy通常是一种高效的方法,因为它只需要少量审计数据。数据切片使研究人员和实践者能够识别模型预测中的偏见和错误,并校准模型以提高其整体能力。
4.1.3 算法追索
算法追索(也称为可解释AI领域中的“反事实”[237])旨在生成一组假设样本,可以将模型决策翻转为更理想的结果。例如,如果一个人被拒绝贷款,算法追索寻求最接近的样本(例如,具有更高账户余额)以获得批准。通过算法追索得出的假设样本对于理解决策边界非常有价值。对于前面提到的例子,假设样本解决了个人如何获得批准的问题,并有助于检测个体之间的潜在偏见。
现有方法主要在识别假设样本的策略上有所不同,通常可以分为白盒和黑盒方法。白盒方法需要访问被评估模型,这可以通过完全内部[38, 118, 149]、梯度[237]或仅预测函数[57, 62, 136, 212]实现。相反,黑盒方法不需要访问模型。例如,Dijkstra算法用于在现有训练数据点之间获取最短路径,以在某些分布下找到追索[184]。另一种方法是将特征空间划分为纯区域,其中所有数据点属于单一类,并利用图遍历技术[20, 26]识别最近的追索。由于推理的目标标签通常由人类输入,这些追索方法都需要最小的人类参与。
4.1.4 挑战
构建分布内评估集的主要挑战在于有效且高效地识别目标样本。在数据切片的情况下,确定最佳数据子集特别具有挑战性,因为随着数据点的增加,可能的子集数量呈指数增长。同样,在信息有限的情况下识别最近的追索也需要大量努力。
4.2 分布外评估
分布外评估数据是指一组遵循与训练数据中观察到的分布不同的样本。我们首先讨论分布外评估的需求,然后回顾两个代表性任务:生成对抗样本和生成具有分布偏移的样本。然后我们深入探讨与分布外数据生成相关的挑战。
4.2.1 分布外评估的需求
尽管现代机器学习技术通常在分布内数据集上表现良好,但部署环境中的数据分布可能与训练数据不一致(Liu et al., 2020)。分布外评估主要通过利用与训练期间使用的样本显著不同的数据样本来评估模型在意外场景中的泛化能力。这种评估可以揭示模型的迁移能力,并增强其在意外场景中表现的信心。分布外评估还可以提供关于模型鲁棒性的重要见解,暴露在部署前必须解决的潜在缺陷。这在确定模型在现实世界部署中是否安全至关重要。
4.2.2 生成对抗样本
对抗样本是通过有意操纵或修改输入数据以使模型做出错误预测的样本。对抗样本有助于理解模型的鲁棒性,通常通过对输入数据应用扰动生成。手动扰动涉及向原始数据添加合成和可控的扰动,如噪声和模糊(Kuramatsu et al., 2019)。
自动化方法设计基于学习的策略自动生成扰动,通常分为四类:白盒攻击、物理世界攻击、黑盒攻击和投毒攻击。白盒攻击涉及攻击者提供模型和受害者样本。白盒攻击的例子包括Biggio的攻击(Biggio et al., 2018)、DeepFool(Deng et al., 2017)和投影梯度下降攻击(Zhang et al., 2018)。物理世界攻击涉及向现实世界对象引入真实扰动。例如,在(Yang et al., 2018)的工作中,将贴纸贴在路标上以显著影响自动驾驶汽车的标志识别器。黑盒攻击通常在攻击者无法访问分类器参数或训练集但拥有数据域和模型架构信息时应用。在(Wang et al., 2018)中,作者利用迁移性生成对抗样本。在(Suzuki et al., 2019)中提出了基于零阶优化的黑盒攻击,利用受害者样本的预测置信度。投毒攻击涉及在训练前创建对抗样本,利用模型架构知识。例如,毒蛙技术(Papadopoulos et al., 2016)将对抗图像插入训练集中并带有真实标签。通过在各种对抗样本上评估训练模型,我们可以更好地理解模型在部署中的潜在弱点。这可以帮助我们采取措施防止不良结果。
4.2.3 生成具有分布偏移的样本
生成具有分布偏移的样本使得能够在不同分布上评估模型。一种直接的方法是收集具有不同模式的数据,例如跨不同时间或位置的偏移(Gao et al., 2019),用于野生动物监测的相机陷阱(Hong et al., 2019),以及不同领域(Wang et al., 2019)。更高效的方法是从预收集的数据构建评估集。例如,一些研究(Kuramatsu et al., 2019; Wang et al., 2019)生成各种连续的视频帧集,这些帧在视觉上对人类相似,但由于微小扰动导致不一致的预测。
除了现实世界数据中的自然分布偏移,合成分布偏移被广泛采用,包括三种类型:1)协变量偏移,假设输入分布发生偏移(Ryu et al., 2019; Zhang et al., 2018),2)标签偏移,假设标签分布发生偏移(Huang et al., 2019; Liu et al., 2020),3)一般分布偏移,假设输入和标签分布都发生偏移(Yang et al., 2019; Wang et al., 2019)。有偏数据采样可用于合成协变量偏移或标签偏移,而基于学习的方法通常需要合成一般分布偏移(Yang et al., 2019; Wang et al., 2019)。生成具有分布偏移的样本对于评估模型的迁移能力至关重要,特别是在训练和部署环境之间存在分布差距时。
4.2.4 挑战
生成分布外评估集的挑战是双重的。首先,生成高质量的分布外数据具有挑战性。如果训练数据不具有代表性,可能难以生成适当的数据。此外,生成模型可能会遇到模式崩溃问题,即它们只生成有限数量的相似样本,而忽略了目标分布的多样性。其次,评估分布外生成的质量是困难的,因为没有单一指标可以捕捉生成样本的多样性和质量。常用的指标,如似然或准确性,可能不合适,因为它们可能偏向生成与训练数据相似的样本。因此,提出了各种评估指标来评估分布内和分布外样本之间的距离(Zhang et al., 2017; Zhang et al., 2018; Li et al., 2020; Wang et al., 2021; Liu et al., 2021)。总体而言,创建高质量的分布外数据是一项复杂且要求高的任务,需要精心设计。
4.3 提示工程
随着大型语言模型的出现,仅通过微调输入以探测模型中的知识来完成任务变得可行,同时保持模型不变。提示工程是一项新兴任务,旨在设计和构建高质量的提示,以在下游任务中获得最有效的性能(Wang et al., 2021)。例如,在执行文本摘要时,我们可以提供我们想要摘要的文本,然后提供特定指令,如“总结它”或“TL;DR”以指导推理。提示工程通过微调输入数据而不是模型本身来实现给定任务,从而革新了传统工作流程。
一种自然的方法是执行_手动提示工程_,通过创建模板。例如,在(Yang et al., 2019; Yang et al., 2020; Zhou et al., 2021)中,作者为文本分类和条件文本生成任务中的少样本学习预定义了模板。然而,手动制作模板可能不足以发现复杂任务的最佳提示。因此,研究了_自动提示工程_。常见的程序化方法包括从外部语料库挖掘模板(Li et al., 2020)和使用种子提示进行释义(Wang et al., 2021; Zhou et al., 2021)。基于学习的方法通过基于梯度的搜索(Liu et al., 2021)或生成模型(Liu et al., 2021)自动生成提示标记。提示工程的主要障碍在于缺乏一个始终表现良好的通用提示模板。各种模板可能导致不同的模型行为,获得所需答案并不保证。因此,需要进一步研究以深入了解模型对提示的响应并指导提示工程过程。
5. 数据维护
在生产场景中,数据不是一次性创建的,而是不断更新的,这使得数据维护成为一个必须考虑的重大挑战,以确保在构建AI系统时可靠和即时的数据供应。本节概述了数据维护的需求、代表性方法(如图6所示)和挑战。我们的讨论跨越三个方面:数据理解(第5.1节)、数据质量保证(第5.2节)和数据存储与检索(第5.3节)。此外,表4总结了相关任务和方法。
5.1 数据理解
为了确保适当的维护,首先需要理解数据。以下讨论涵盖了数据理解技术的需求、通过可视化和评估获得洞察的方法以及涉及的挑战。
5.1.1 数据理解技术的需求
现实世界的数据通常以大量和复杂性出现,这可能使其难以理解和分析。数据理解技术至关重要的三个主要原因。首先,理解大量原始数据样本对人类来说可能具有挑战性。为了使其更易管理,我们需要总结数据并以更简洁和可访问的方式呈现。其次,现实世界的数据通常是高维的,而人类感知仅限于二维或三维空间。因此,在低维空间中可视化数据对于理解数据至关重要。最后,对于组织和利益相关者来说,理解其数据资产的价值以及每个数据样本对性能的贡献至关重要。
5.1.2 数据可视化
人类是视觉动物,因此我们天生倾向于处理和保留以图形和图表格式呈现的信息。数据可视化旨在利用这种人类特质帮助我们更好地理解复杂数据。接下来,我们将讨论三个相关的研究主题:可视化摘要、聚类可视化和可视化推荐。
可视化摘要。将原始数据总结为一组图形图表可以帮助人类通过简洁的界面获得洞察。尽管其应用广泛,生成忠实且用户友好的摘要图表并非易事。例如,很难选择正确的可视化格式。径向图(如星形图和玫瑰图)和线性图(如折线图和条形图)是两种常见的可视化格式。然而,哪种格式更好存在争议。尽管经验证据表明,对于许多分析任务,线性图优于径向图[37],但径向图通常更自然且更易记忆[33]。在某些情况下,为了增强记忆性或空间效率,可以妥协于数据表示的忠实性[37, 238]。对于感兴趣的读者,[61]和[78]提供了可视化格式的全面分类。尽管自动化脚本可以生成图表,但可视化摘要过程通常需要最小的人类参与以选择最合适的可视化格式。
聚类可视化。现实世界的数据可能是高维的且具有复杂的流形结构。因此,降维技术(在第3.4节中提到)通常用于将数据可视化为二维或三维空间。此外,自动化聚类方法[72]经常与降维技术结合,以分组、分类和通常以颜色编码的方式组织数据点,促进人类理解和深入分析数据。
可视化推荐。基于各种可视化格式,可视化推荐引起了越来越多的兴趣,它涉及为特定用户推荐最合适的可视化格式。程序化自动化方法基于预定义的规则对可视化候选进行排名,这些规则由人类感知指标(如数据类型、统计信息和人类视觉偏好)组成[254]。基于学习的方法利用各种机器学习技术对可视化候选进行排名。一个例子是DeepEye[150],它利用数据的统计信息作为输入,并基于数据与图表匹配的质量优化归一化折扣累积增益(NDCG)。协作可视化技术通过允许用户持续提供反馈和要求来提供更灵活的用户体验[213]。最近的一项研究,Snowy[219]接受人类语言作为输入,并在对话式视觉分析期间生成话语的推荐。由于可视化旨在供人类用户使用,允许人类在环反馈对于开发可视化推荐系统至关重要。
5.1.3 数据评估
数据评估的目标是理解每个数据点对最终性能的贡献。这些信息不仅为利益相关者提供了宝贵的洞察,还在数据市场中买卖数据点和信用归因方面非常有用[83]。为了实现这一点,研究人员估计了数据点的Shapley值,该值根据其贡献为每个数据点分配权重[3, 84]。后续研究增强了这种估计在多个数据集和模型中的鲁棒性[83]。由于计算精确的Shapley值可能计算成本高昂,特别是在处理大量数据点时,上述方法都采用了基于学习的算法进行高效估计。
5.1.4 挑战
有两个主要挑战。首先,最有效的数据可视化格式和算法(如聚类算法)通常特定于领域,并受人类行为影响,因此难以选择最佳选项。这一选择过程通常需要人类输入。确定如何最好地与人类互动增加了额外的复杂性。其次,开发高效的数据评估算法具有挑战性,因为估计Shapley值可能计算成本高昂,特别是随着数据规模的不断增长。此外,Shapley值可能仅提供数据价值的有限视角,因为除了模型性能之外,还有许多其他重要因素,例如通过训练模型在数据上解决的问题。
5.2 数据质量保证
为了确保可靠的数据供应,必须维护数据质量。我们将讨论为什么质量保证是必要的,维护数据质量涉及的关键任务(质量评估和改进)以及挑战。
5.2.1 数据质量保证的需求
在现实世界场景中,数据和相应的数据处理基础设施经常和持续更新。因此,不仅需要一次性创建高质量的培训或推理数据,还需要在动态环境中保持其卓越性。确保数据质量在这样一个动态环境中涉及两个方面。首先,需要持续监控数据质量。实际应用中的现实世界数据可能很复杂,并且可能包含各种与预期结果不一致的异常数据点。因此,建立可以评估数据质量的定量测量至关重要。其次,如果模型受到低质量数据的影响,实施质量改进策略以提高数据质量也很重要,这也将提高模型性能。
5.2.2 质量评估
质量评估开发评估指标来衡量数据质量并检测潜在缺陷和风险。这些指标可以大致分为客观或主观评估[18, 181, 195, 257]。尽管客观和主观评估可能需要不同程度的人类参与,但我们调查的每篇论文都使用了这两种方法。因此,我们在表4中为每篇论文标记了不止一种人类参与程度。我们将讨论这两种类型的评估,并提供每种评估的一些代表性示例。
客观评估使用独立于特定应用的内在数据属性直接测量数据质量。此类指标的示例包括准确性、及时性、一致性和完整性。准确性是指获得的数据的正确性,即获得的数据值是否与数据库中存储的值一致。及时性评估数据是否是最新的。一致性指违反在一组数据项上定义的语义规则。完整性测量非空值的百分比。所有这些指标都可以直接从数据中收集,只需要最小的人类参与来指定计算公式。
主观评估从人类的角度评估数据质量,通常特定于应用,并需要专家的外部分析。诸如可信度、可理解性和可访问性等指标通常通过用户研究和问卷进行评估。可信度衡量数据源提供的信息的准确性。可理解性衡量用户理解收集数据的难易程度,而可访问性衡量用户访问数据的能力。尽管主观评估可能不会直接有益于模型训练,但它们可以促进组织内的更轻松协作并提供长期利益。收集这些指标通常需要完全的人类参与,因为它们通常基于问卷。
5.2.3 质量改进
质量改进涉及开发策略以提高数据管道各个阶段的数据质量。最初,使用程序化自动化方法强制执行质量约束,包括完整性约束[17]、拒绝约束[49]和列之间的条件功能依赖[29]。最近,开发了基于机器学习的自动化方法来提高数据质量。例如,在[19]中,数据验证模块在具有预期数据模式的训练集上训练机器学习模型,并将其推广到识别未见场景中的潜在问题。此外,开发了管道自动化方法,以系统地策划数据管道的多个阶段,如数据集成和数据清理[204, 230]。
除了自动化,还开发了协作方法以鼓励专家参与数据改进。例如,在自动驾驶[81]和视频内容审查[60]中,人类注释持续用于提高训练数据的质量,并借助机器学习模型。此外,UniProt[247],一个用于蛋白质序列和功能文献的公共数据库,创建了一个系统提交系统,以利用集体智慧[44]进行数据改进。该系统自动验证提交文献的元信息、更新版本和研究兴趣。所有这些方法都需要部分人类参与,因为人类必须通过注释或提交持续提供信息。
5.2.4 挑战
确保数据质量面临两个主要挑战。首先,选择最合适的评估指标并非易事,严重依赖于领域知识。在不断变化的环境中,单一指标可能并不总是足够。其次,质量改进是一个重要但费力的过程,需要仔细考虑。尽管自动化在确保可持续数据质量方面至关重要,但人类参与也可能是必要的,以确保数据质量符合人类期望。因此,必须精心设计数据评估指标和数据改进策略。
5.3 数据存储与检索
数据存储和检索系统在提供构建AI系统所需数据方面发挥着不可或缺的作用。为了加快数据获取过程,提出了各种高效策略。在以下讨论中,我们详细阐述了高效数据存储和检索的重要性,回顾了一些资源分配和查询加速的代表性加速方法,并讨论了与它们相关的挑战。
5.3.1 高效数据存储与检索的需求
随着生成的数据量继续呈指数增长,拥有一个能够高效处理大数据量和速度的强大且可扩展的数据管理系统变得越来越关键,以支持AI模型的训练。这一需求包括两个方面。首先,数据管理系统(如Hadoop[77]和Spark[266])通常需要存储和合并来自各种来源的数据,这需要仔细管理内存和计算资源。其次,设计查询策略以实现快速数据获取至关重要,以确保及时和准确地处理数据。
5.3.2 资源分配
资源分配旨在估计和平衡数据管理系统中的操作成本。数据管理系统中的两个关键效率指标是吞吐量(指可以多快收集新数据)和延迟(衡量系统响应请求的速度)。为了优化这些指标,提出了各种参数调整技术,包括控制数据库配置设置(如缓冲池大小)和运行时操作(如CPU使用百分比和多编程级别)[69]。早期调整方法依赖于基于直觉、经验、数据领域知识和行业最佳实践(如Apache[6]和Cloudera[152])的规则。例如,Hadoop指南[252]建议将减少任务的数量设置为集群中可用减少槽的大约0.95或1.75倍,以确保系统对重新执行失败或缓慢任务的容忍度。
已经开发了各种基于学习的策略用于数据处理系统中的资源分配。例如,Starfish[100]提出了一种配置文件-预测-优化方法,生成具有数据流和成本统计信息的作业配置文件,然后用于预测虚拟作业配置文件以进行任务调度。最近,开发了机器学习方法(如OtterTune(Hansen et al., 2020))以自动选择最重要的参数,映射工作负载,并推荐参数以提高延迟和吞吐量。这些基于学习的自动化策略可以在不假设任何内部系统信息的情况下自适应地平衡系统资源。
5.3.3 查询加速
另一个研究方向是高效数据检索,这可以通过高效的索引选择和查询重写策略实现。
查询索引选择。索引选择的目标是最小化查询处理期间所需的磁盘访问次数。为了实现这一点,程序化自动化策略创建具有可索引列和记录查询执行成本的索引方案(Liu et al., 2019)。然后,它们应用贪婪算法(Kuramatsu et al., 2018)或动态规划(Zhang et al., 2021)来选择索引策略。为了实现更自适应和灵活的查询策略,基于学习的自动化策略从人类专家收集索引数据,并训练机器学习模型以预测适当的索引策略(Shen et al., 2022),或使用强化学习搜索最佳策略(Yang et al., 2022)。
查询重写。与此同时,查询重写旨在通过从输入查询中识别重复的子查询来减少工作负载。基于规则的策略(Wu et al., 2017; Wang et al., 2021)使用预定义的规则重写查询,如DBridge(Wang et al., 2021),它构建依赖图以建模数据流,并迭代应用转换规则。基于学习的方法使用监督学习(Peng et al., 2022)或强化学习(Zhang et al., 2021)来预测给定输入查询的重写规则。
5.3.4 挑战
现有的数据存储和检索方法通常专注于优化系统的特定部分,如我们提到的资源分配和查询加速。然而,整个真实数据管理系统可能很复杂,因为它需要处理各种格式和结构的大量数据,这使得端到端优化成为一项具有挑战性的任务。此外,除了效率之外,数据存储和检索还需要考虑其他几个关键且具有挑战性的方面,如数据访问控制和系统维护。
6. 数据基准
在前几节中,我们探讨了数据生命周期各个阶段中各种数据为中心的AI任务。检查基准是深入了解这些任务研究和开发进展的一种有前途的方法,因为基准基于标准和公认的指标全面评估各种方法。需要注意的是,在数据为中心的AI背景下,我们特别感兴趣的是_数据基准_而不是模型基准,它应该评估旨在实现数据卓越的各种技术。在本节中,我们调查了不同数据为中心的AI目标的现有基准。首先,我们将介绍基准收集策略,随后我们将总结和分析收集的基准。
收集策略。我们主要利用Google Scholar搜索基准论文。具体来说,我们为每个任务生成一系列查询,使用子目标和任务的相关关键词,并补充诸如“基准”、“定量分析”和“定量调查”等术语。例如,任务“数据清理”的查询包括“基准数据清理”、“基准数据清洗”、“数据清理的定量分析”、“数据清理的定量调查”等。值得注意的是,许多查询的基准评估的是模型而不是数据。因此,我们仔细阅读了每篇论文,并手动筛选了论文,以确保它们专注于数据的评估。我们还根据引用次数和出版场所的声誉进行了筛选。
收集基准的摘要。表5包含我们使用上述过程收集的36个基准,其中23个包含开源代码。值得注意的是,我们没有遇到“生成分布偏移样本”任务的基准,尽管有用于_检测_分布偏移样本的基准(Krizhevsky et al., 2015)。我们将其从表中省略,因为它主要评估模型在分布偏移上的表现,而不是讨论如何创建可以暴露模型弱点的分布偏移数据。
元分析。我们通过分析这些收集的基准,从不同维度给出了现有数据为中心的AI研究的鸟瞰图。⧫⧫尽管AI社区对这些基准做出了最大贡献(17),但许多其他领域也做出了重大贡献,包括数据库(9)、计算机图形学(3)、人机交互(2)、生物医学(3)、计算机安全(1)和医疗保健(1)。值得注意的是,医疗保健和生物医学在计算机科学领域之外。一个领域中的既定基准通常意味着有一系列已发表的作品。因此,数据为中心的AI是一项跨学科的努力,跨越了计算机科学内外的各个领域。⧫⧫最常被基准化的数据模态是表格数据(25),其次是图像(15)、时间序列(7)、文本(6)、音频(6)和图(2)。我们推测这是因为表格和图像数据已经被广泛研究,而图数据的研究仍在兴起。⧫⧫如果我们基于基准数量(22)来衡量,训练数据开发受到了更多关注,与评估数据开发(5)和数据维护(8)相比。我们假设这是因为许多训练数据开发中的任务在模型为中心的范式中被视为预处理步骤。
7. 讨论与未来方向
数据为中心的AI研究的当前阶段是什么,潜在的未来方向是什么?本节提供了数据为中心的AI的顶级讨论,并提出了我们识别的一些开放问题,旨在激励未来在这一领域的探索。我们首先尝试回答开头提出的研究问题:
-
RQ1:使AI以数据为中心的必要任务是什么?数据为中心的AI包含一系列任务,涉及开发训练数据、推理数据和维护数据。这些任务包括但不限于1)清理、标注、准备、减少和增强训练数据,2)生成分布内和分布外数据以进行评估,或调整提示以实现所需结果,以及3)构建理解、组织和调试数据的高效基础设施。
-
RQ2:为什么自动化对于开发和维护数据至关重要?鉴于数据量以前所未有的速度增长,开发自动化算法以简化数据开发和维护过程是必要的。根据表2、3和4中调查的论文,已经为所有子目标开发了自动化算法。这些自动化算法跨越不同的自动化水平,从程序化自动化到基于学习的自动化,再到管道自动化。
-
RQ3:在哪些情况下以及为什么人类参与在数据为中心的AI中是必不可少的?许多数据为中心的AI任务需要人类参与,例如大多数数据标注任务(表2)和推理数据开发中的几个任务(表3)。值得注意的是,不同方法可能需要不同程度的人类参与,从完全参与到提供最小输入。在许多场景中,人类参与是确保AI系统行为与人类意图一致的唯一途径。
-
RQ4:数据为中心的AI的当前进展如何?尽管数据为中心的AI是一个相对较新的概念,但许多相关任务已经取得了相当大的进展,其中大多数在模型为中心的范式中被视为预处理步骤。与此同时,许多新任务最近出现,对它们的研究仍在进行中。在第6节中,我们对基准论文的元分析揭示了跨不同领域的进展,其中大多数基准来自AI领域。在三个广义的数据为中心的AI目标中,训练数据开发受到了相对更多的研究关注。对于数据模态,表格和图像数据是主要焦点。随着数据为中心的AI研究论文呈指数增长(Zhang et al., 2020),我们可能会在未来见证这一领域的更多进展。
通过尝试回答这些问题,我们的调查深入探讨了各种任务及其需求和挑战,从而更具体地描绘了数据为中心的AI的范围和进展。然而,尽管我们努力广泛而全面地涵盖各种任务和技术,但不可能包括数据为中心的AI的每个方面。在以下内容中,我们将数据为中心的AI与AI中其他两个热门研究主题联系起来:
-
基础模型。基础模型是在大量未标注数据上训练的大型模型,可以适应各种任务,如大型语言模型(Wang et al., 2019; Zhang et al., 2020)和Stable Diffusion(Shen et al., 2020)。随着模型变得足够强大,可以使用模型执行许多数据为中心的AI任务,如数据标注(Hao et al., 2020)和数据增强(Zhang et al., 2020)。因此,基础模型的最近趋势有可能从根本上改变我们对数据的理解。与传统的将原始数据值存储在数据集中的方法不同,模型本身可以是一种数据形式(或原始数据的“容器”),因为模型可以传达信息(参见第2.1节中数据的定义)。基础模型模糊了数据和模型之间的界限,但它们的训练仍然严重依赖于大型和高质量的数据集。
-
强化学习。强化学习是一个研究领域,训练智能体在没有初始数据的情况下优化奖励[131, 164, 270–272, 275, 276, 279, 281]。它是一种独特的学习范式,交替使用模型生成数据和使用自生成数据训练模型。与基础模型一样,强化学习的进步也可能模糊数据和模型之间的界限。此外,强化学习已经被广泛采用于几个数据为中心的AI子目标,如数据标注[48, 66, 274]、数据准备[122]、数据减少[148]和数据增强[56, 273]。原因可能归因于其目标导向的性质,非常适合自动化。
在考察了与这两个快速发展的研究领域的联系后,我们假设数据为中心的AI和模型为中心的AI在AI系统开发中可能会更加交织在一起。展望未来,我们提出了在数据为中心的AI中识别的一些潜在未来方向:
-
跨任务自动化。尽管在自动化各种单独的数据为中心的AI任务方面取得了显著进展,但跨多个任务的联合自动化仍然很大程度上未被探索。尽管管道搜索方法[76, 97, 132, 280]已经出现,但它们仅限于训练数据开发。从广泛的数据为中心的AI视角来看,拥有一个统一框架来联合自动化针对不同目标的任务(从训练数据开发到推理数据开发和数据维护)将是可取的。
-
数据-模型协同设计。尽管数据为中心的AI主张将重点转向数据,但这并不一定意味着模型必须保持不变。使用不同模型时,最佳数据策略可能有所不同,反之亦然。此外,如上所述,随着基础模型和强化学习的进步,数据和模型之间的界限可能会变得越来越模糊。因此,未来的AI进展可能来自于协同设计数据和模型,数据和模型的共同进化可能为更强大的AI系统铺平道路。
-
数据去偏。在许多高风险应用中,AI系统最近被发现对某些人群表现出歧视性行为,引发了关于公平性的重大关注[50, 65, 112, 113, 157, 240]。这些偏见通常源于数据中敏感变量的不平衡分布。从数据为中心的角度来看,需要更多的研究努力来去偏数据,包括但不限于减轻训练数据中的偏见,系统化地构建评估数据以暴露不公平问题,以及在动态环境中持续维护公平数据。
-
处理各种模态的数据。根据第6节中的基准分析,大多数研究工作都集中在表格和图像数据上。然而,其他数据模态在数据为中心的AI中同样重要但研究较少,提出了重大挑战。例如,时间序列数据[92, 141, 277]表现出复杂的时间相关性,而图数据[134, 147, 226, 290–293]具有复杂的数据依赖关系。因此,需要更多关于如何为这些模态设计数据的研究。此外,开发能够同时处理多种数据模态的数据为中心的AI解决方案是一个有趣的未来探索方向。
-
数据基准开发。模型为中心的AI的进步得益于基准在推进模型设计方面的作用。而数据为中心的AI需要更多关注基准。正如第6节所讨论的,现有的数据为中心的AI基准通常只关注特定任务。构建一个统一的基准以全面评估整体数据质量和各种数据为中心的AI技术是一个重大挑战。尽管DataPerf[155]在这一目标上取得了显著进展,但它目前仅支持有限数量的任务。开发更统一的数据基准将大大加速这一领域的研究进展。
8. 结论
本综述聚焦于数据为中心的AI,这是AI中一个新兴且重要的研究领域。我们通过展示精心设计和维护数据如何使AI解决方案在学术界和工业界更受欢迎,激发了数据为中心的AI的需求。接下来,我们提供了数据为中心的AI的背景,包括其定义和目标驱动的分类法。然后,在提出的研究问题的指导下,我们从自动化和协作的角度回顾了用于不同目的的各种数据为中心的AI技术。此外,我们从不同领域收集了数据基准,并在元级别上对其进行了分析。最后,我们从全局视角讨论了数据为中心的AI,并分享了我们对数据和模型之间模糊界限的看法。我们还提出了该领域的潜在未来方向。总结来说,我们相信数据将在构建AI系统中扮演越来越重要的角色。与此同时,仍然有许多挑战需要解决。我们希望我们的综述能够激发我们社区的协作倡议,推动这一领域的发展。