代码和数据是人工智能系统的基础。这两个组件在稳健模型的开发中都发挥着重要作用,但您应该更关注哪一个?
在本文中,我们将介绍以数据为中心与以模型为中心的方法,看看哪个更好,我们还将讨论如何采用以数据为中心的基础架构。
以模型为中心的方法
以模型为中心的方法(Model-Centric approach)意味着开展实验研究以提高机器学习模型的性能。这涉及从各种可能性中选择最佳模型架构和训练过程。
- 在这种方法中,保持数据不变,改进代码或模型架构。
- 其中处理构建模型的代码是这种方法的中心目标。
目前大多数人工智能应用都是以模型为中心的,其中一个可能的原因是人工智能领域对模型的学术研究非常重视。根据Andrew Ng的说法,该领域 90% 以上的研究论文都是以模型为中心的。
创建一个新数据集很难,因此人工智能社区认为以模型为中心的机器学习更有前途。但在专注于代码的同时,数据经常被忽视,数据收集被视为一次性事件。
以数据为中心的方法
以数据为中心的方法(Data-Centric approach)关注数据内在的信息,并希望通过数据组织产生更准确的模型。
- 这种方法关注数据集,提高准确性。
- 处理数据是这种方法的中心目标。
数据驱动与以数据为中心的方法不同:数据驱动方法是一种从数据中收集、分析和提取见解的方法。以数据为中心的方法关注使用的数据本身。
-
以数据为中心的方法是指一个系统,其中数据是主要和永久的资产,而应用程序会发生变化。
-
数据驱动方法意味着通过摄取大量数据来创建技术、技能和环境。
将Model-Centric 与 Data-Centric 进行对比
对于机器学习工程师来说,以模型为中心的方法更加容易理解的,因为从业者擅长用专业知识来解决问题,也不愿意没有人愿意花一整天时间标记数据。
但在当今的机器学习中,数据质量比模型本身可能更重要。 如果数据标注存在错误,则数百个小时被浪费在基于错误数据微调模型上,此时模型精度较低的根本原因与模型优化无关。
Model-Centric | Data-Centric |
---|---|
代码是核心 | 数据是核心 |
优化模型,使其能够处理数据中的噪声 | 剔除数据中的噪音,得到高质量数据 |
数据固定,代码和模型可以修改 | 代码和模型固定 |
模型迭代改进 | 数据质量迭代 |
但也不必完全以数据为中心:有时关注模型和代码很重要。我们倾向于在关注模型的同时忽略数据的重要性,在关注数据的同时则关注数据本身。
Data-Centric 架构
数据在AI研究中极为重要,采用高质量数据至关重要。但相关数据不仅稀有且嘈杂,而且获取成本极高。
在实施时应该将数据视为比模型和代码更重要的基本资产。 那么以数据为中心的机器学习究竟涉及什么?在实施以数据为中心的方法时,您应该考虑哪些基本因素?
数据标签质量
数据打标是为数据分配一个或多个标签的过程。标签与应用于数据的特定值相关联。当大量图像被错误标记时,错误的样本会影响模型的精度。
提高标签质量的最佳方法是找出标签中的不一致之处,并按照标签说明进行操作。
数据增强
通过数据分析发现合适的数据增强方法,比如对不同的数据增强方法进行可视化,然后进行选择。
数据扩增可以用来为机器学习引入更多的训练数据,也可以用来制作具有不同真实度的合成图像或视频帧。
特征工程
特征工程是通过更改输入数据、先验知识或算法向模型添加特征的过程。它用于机器学习,以帮助提高预测模型的准确性。
提高数据质量涉及改进输入数据和目标/标签。特征工程对于添加原始形式可能不存在但可以产生重大影响的特征至关重要。
数据版本控制
管理数据集访问以及数据集版本既困难又容易出错,数据版本控制是维护数据中最不可或缺的步骤。
数据集版本控制可确保重现性和可靠性,以下是一些用于数据版本控制的最佳平台:
格物钛托管标注数据及预测结果,将数据流动统一在一个平台,减少传统手工作业和不必要的数据冗余及格式处理时间。
Neptune提供了用于记录、存储、显示、组织、比较和查询机器学习生命周期中生成的所有元数据。
- Weights & Biases,Weights & Biases: The AI Developer Platform
Weights & Biases (WandB) 是一个为研究人员和深度学习团队提供机器学习工具的平台。WandB 可帮助您进行实验跟踪、数据集版本控制和模型管理。
- 数据版本控制 (DVC),User Guide | Data Version Control · DVC
DVC是用于机器学习项目的开源平台,帮助数据科学家和开发人员进行数据版本控制、工作流管理和实验管理。
领域知识
领域知识在以数据为中心的方法中非常有价值。主题专家通常可以检测到 ML 工程师、数据科学家和标注员无法检测到的细微差异。
ML系统中仍然缺少涉及领域专家的内容。如果有额外的领域知识可用,ML 系统可能会表现得更好。
Data-Centric 优点
以数据为中心的方法有很多好处:
- 可以对数据质量进行仔细的掌控。
- 减少数据错误和不一致。
- 数据访问更加便捷。
- 减少数据冗余。
- 提高数据质量和可靠性。
Data-Centric 最佳实践
如果您采用以数据为中心的方法,请记住以下几点:
- 确保数据标注一致性。
- 使用生产数据获得及时精度反馈。
- 使用错误分析来关注数据子集。
- 消除噪声样本;
- 更多的数据并不总是更好。
参考文献
- Data-Centric Approach vs Model-Centric Approach in Machine Learning
- Data-centric Machine Learning: Making customized ML solutions production-ready
- Data-Centric - Coggle数据科学