面向 AI 的数据质量

文章讲述了数据科学家Ria在构建AI模型项目中遇到的数据质量问题,强调数据准备在机器学习中的重要性。IBMResearch的DataQualityforAIToolkit被介绍为解决数据问题的自动化解决方案,通过API提供数据质量评估和修复。文章还提到了数据质量和数据准备在AI项目生命周期中的关键作用。
摘要由CSDN通过智能技术生成

如果我们在一部关于人工智能的电影中,我们故事的主角将是一位数据科学家——我们称她为Ria。Ria 在一家跨国公司工作,一个星期一早上,她收到一个请求,要求她帮助构建一个 AI 模型的项目。该项目是一个高知名度的项目,如果 Ria 和她的团队能够构建一个 AI 模型来解决这个问题,就有可能为公司节省大量收入。Ria 很兴奋,并立即开始请求数据访问,以便她和她的团队可以开始该项目。Ria 和她的团队分析数据以查找数据质量问题、清理数据、构建功能并构建模型。几个月后,Ria和她的团队正在努力构建一个高精度的模型。在每次迭代中,他们都会发现更多的数据质量问题,返回设计表对问题进行头脑风暴,找出解决问题的方法,并编写用于数据修复的代码。经过数周和数月的努力,Ria 认为,如果他们在一开始就获得数据质量报告,整个项目会更加精简。这听起来很熟悉吗?

多研究表明,数据准备是机器学习生命周期中最耗时的部分之一。原因之一是数据问题是以试错方式发现的,必须为发现的每个问题编写新代码,并且必须有人手动记录应用于数据的所有更改,以便有一个关于数据在构建机器学习管道过程中如何更改的世系。但是,除非明确记录,否则此信息可能不可用。

虽然数据科学家今天通过编写自定义脚本或手动分析来解决这些问题,但这是一个耗时的过程,并且一些挑战(例如查找类重叠或标签噪声)本身可能是基于人工智能的算法,可能需要几个月的时间来开发才能用于商业项目。此外,还有其他挑战,例如需要检查的大量指标,表格数据和时间序列数据等不同形式的数据,这使得这个问题变得更加困难。因此,该领域需要自动化,以一致地评估不同模态的数据、解释评估、提出建议以及运行这些建议的代码。

为了克服这些挑战,IBM Research 开发了一个 Data Quality for AI Toolkit,该工具包使用新颖的算法构建,并提供了一种系统的方法,通过明确指定的 API 来评估和修复数据。该工具包旨在服务于各种用例,例如:

  • 构建监督分类模型

  • 通过直观的机制获取域输入,为应用程序工作流提供数据质量

  • 通过数据合成在存在严格隐私约束的情况下工作

  • 自动报告数据质量并捕获数据的沿袭

该工具包具有以下功能:

  1. 验证器:执行数据质量评估并输出 0 - 1 的数据质量分数的算法。

  2. 修正程序:提供纠正措施以修复数据质量并影响数据质量分数的算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值