面向 AI 的数据质量

人工智能MOS

已于 2024-01-26 19:37:01 修改

阅读量847

点赞数 26

文章标签：人工智能大数据

于 2023-12-15 12:00:00 首次发布

本文链接：https://blog.csdn.net/2301_81887304/article/details/135002913

版权

文章讲述了数据科学家Ria在构建AI模型项目中遇到的数据质量问题，强调数据准备在机器学习中的重要性。IBMResearch的DataQualityforAIToolkit被介绍为解决数据问题的自动化解决方案，通过API提供数据质量评估和修复。文章还提到了数据质量和数据准备在AI项目生命周期中的关键作用。

摘要由CSDN通过智能技术生成

如果我们在一部关于人工智能的电影中，我们故事的主角将是一位数据科学家——我们称她为Ria。Ria 在一家跨国公司工作，一个星期一早上，她收到一个请求，要求她帮助构建一个 AI 模型的项目。该项目是一个高知名度的项目，如果 Ria 和她的团队能够构建一个 AI 模型来解决这个问题，就有可能为公司节省大量收入。Ria 很兴奋，并立即开始请求数据访问，以便她和她的团队可以开始该项目。Ria 和她的团队分析数据以查找数据质量问题、清理数据、构建功能并构建模型。几个月后，Ria和她的团队正在努力构建一个高精度的模型。在每次迭代中，他们都会发现更多的数据质量问题，返回设计表对问题进行头脑风暴，找出解决问题的方法，并编写用于数据修复的代码。经过数周和数月的努力，Ria 认为，如果他们在一开始就获得数据质量报告，整个项目会更加精简。这听起来很熟悉吗？

多研究表明，数据准备是机器学习生命周期中最耗时的部分之一。原因之一是数据问题是以试错方式发现的，必须为发现的每个问题编写新代码，并且必须有人手动记录应用于数据的所有更改，以便有一个关于数据在构建机器学习管道过程中如何更改的世系。但是，除非明确记录，否则此信息可能不可用。

虽然数据科学家今天通过编写自定义脚本或手动分析来解决这些问题，但这是一个耗时的过程，并且一些挑战（例如查找类重叠或标签噪声）本身可能是基于人工智能的算法，可能需要几个月的时间来开发才能用于商业项目。此外，还有其他挑战，例如需要检查的大量指标，表格数据和时间序列数据等不同形式的数据，这使得这个问题变得更加困难。因此，该领域需要自动化，以一致地评估不同模态的数据、解释评估、提出建议以及运行这些建议的代码。