建构高质量数据集:以数据为中心的人工智能时代

人工智能在各领域日益产生深远影响,人工智能获得巨大成功的重要促成因素是可用于构建机器学习模型的丰富的高质量数据。近几年人工智能的研究中,数据在人工智能中的作用日益显著,催生了“以数据为中心的人工智能(Data-Centric AI)”的概念,研究人员和从业人员的关注焦点也逐渐从推进模型设计转向提高数据的质量和数量。

以模型为中心的人工智能没有优先考虑实际应用的多样性

以数据为中心的人工智能时代到来

以数据为中心的人工智能是由吴恩达提出的一门系统设计构建人工智能系统所需的数据的学科。传统的人工智能模型搭建方法主要是以模型为中心(model-centric),一般会聚焦几个相对固定的基准数据集,设计各种各样的模型去提高准确率。以模型为中心的人工智能确保了模型对数据的拟合和在测试中较高的准确率,但是没有考虑到实际应用中数据本身可能会出现的各种问题,即便很好地确保了数据的拟合,在实际的数据处理应用中可能并不会有很好地表现。以数据为中心的人工智能则注重提高数据的质量和数量,它关注数据本身而模型相对固定。在神经网络架构日趋成熟的人工智能时代,数据很大程度上决定了模型能力的上限,采用以数据为中心的的方法在实际场景中具有更大的潜力。

以模型为中心的人工智能vs与数据为中心的人工智能

数据驱动多路径推动人工智能发展

以数据为中心的人工智能是一种立足当下、放眼未来的方法。它强调人工智能模型的持续性能、可靠性和可持续性。

提高模型性能和效率

数据质量和持续的数据补充是人工智能模型不断学习的源泉,将系统化的数据工程方法嵌入到人工智能产品的开发过程中,可以使训练数据更加高质量和标准化,准确的高质量训练数据可以训练出更强的模型性能,可持续重复的流程能够推动产品更快地发展和更新换代,从而更快速地响应市场需求,缩短人工智能产品价值实现的周期。

降低长期投入成本

尽管以数据为中心的方法增加了数据积累、清洗和标注的投资,但它带来的长期效益远远超过前期投入。

以数据为中心的人工智能训练出更加准确的模型,工作流、数据集管理和系统的任务分配,也会让模型训练的效率越来越系统化和高效率,从而降低无效数据带来的损耗、缩短了时间成本。

以数据为中心的人工智模型具备设计数据子集的能力,在训练机器学习系统时,如果某个系统在大部分数据集上表现良好,但在数据的一个子集上出现了偏差,在这种情况下,以数据为中心的人工智能模型支持对数据子集的工程设计,能够有针对性地处理问题,从而降低了模型维护的成本。

降低人工智能开发风险

传统人工智能模型很容易受到模型漂移的影响,因为环境变化而导致模型性能下降。模型漂移分为两种:概念漂移和数据分布漂移。当数据相关的模式或关系发生变化,导致模型需要调整其基本理解时,就会发生概念漂移。而当模型的训练数据发生变化,就有可能发生数据分布漂移。模型漂移会使传统不以数据为中心的人工智能模型随着时间的漂移性能不短降低,从而使产品过时或者被淘汰。以数据为中心的人工智能则把数据的监控和再训练作为训练过程中的重要部分,从而不断更新迭代人工智能模型,降低了人工智能开发过程中面临的淘汰风险。

数据训练与管理:建构高质量数据集

建构以数据为中心的人工智能模型,需要高质量的数据支撑,因此,高效地搭建高质量的数据集,训练出理想的以数据为中心的人工智能模型和良好的数据运行管理系统是建构以数据为核心的人工智能模型所面临的一大挑战。

整数智能数据工程平台中的2D/3D融合标注

高质量的训练数据

以数据为中心的人工智能首先要求数据的完整性,这要求开发高质量的训练数据,构建一个准确、具有代表性且大规模的训练数据集。在以数据为中心的人工智能中,相比于“大数据”,“好数据”更加重要,通过数据清洗和告高质量的数据标注,可以有效实现数据质量的提升。

作为数据集建构与数据管理的行业专家,整数智能在提供数据集建构服务的过程中,从数据集采集阶段开始,严格评估采集数据的质量,并进行筛选和清洗,依据KEANS聚类的挑选规则,挑选更加具有信息量的高质量原始数据进行整理标注;制定严格的标注与交付规则,在数据处理的过程中引入了自研的数据脱敏算法。多元化、多视角的数据处理方法与规则的综合应用,大大提高了训练数据的质量,在既往的数据标注服务案例中,到达了准确率99%,召回率98%的优秀数据表现。

专业化的数据训练与管理

在使用数据进行模型训练的过程中,需要相关领域的专家(SMEs)参与数据建构从数据生成、注释定义到数据管理的全过程,以确保数据标注的准确性和数据模型的专业性。

对于数据训练与管理,整数智能采用了不断迭代的训练模型,并在模型的采用过程中达到数据闭环,不断提高模型性能与表现。整数家集成Mlops模块的AI Power系统,服务数据生产全过程;在数据采样中选取具有信息量高的训练数据,到模型训练过程中不断积累标签数据作为系统迭代基础,并设有AI Check与审核员共同进行标注审核。针对单张图片标注,设置有智能的标注工具,也能自主对批次批量数据进行智能标注,提高标注效率。

有效的数据管理与维护

以数据为中心的最终目标是提供一种可扩展、可重复的模型创建方法,在这个过程中,还需要通过有效的数据维护,通过系统化的误差分析、数据迭代、多元化的环境条件以及注入新数据等方法不断优化模型。

基于对高质量的数据集需求,整数智能信息技术(杭州)有限责任公司建立高度专业化的智能数据工程平台(MooreData Platform)与数据集构建服务(ACE Service),从高质量的数据标注与数据集建构,到专业化、系统化的数据管理,通过数据闭环全链路的高标准规则制定、自动化数据标注与管理等数据处理方式,为人工智能大数据方向发展持续发力提供专业方案。


整数智能信息技术(杭州)有限责任公司,起源自浙江大学计算机创新技术研究院,致力于成为AI行业的数据领航员。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员,其提供的智能数据工程平台(MooreData Platform)与数据集构建服务(ACE Service),满足了智能驾驶、AIGC等数十个人工智能应用场景对于先进的智能标注工具以及高质量数据的需求。

欢迎体验智能数据工程平台(个人版),免费、智能、简易,开箱即用:

MooreData Platform

平台个人版使用手册,可以参考内容进行图像(视频)标注:

https://molar.yuque.com/wkrh7x/motcvg/vd5el9ibwzrtarya 

      

目前公司已合作海内外顶级科技公司与科研机构客户1000余家,拥有知识产权数十项,通过ISO9001、ISO27001等国际认证,也多次参与人工智能领域的标准与白皮书撰写,也受到《CCTV财经频道》《新锐杭商》《浙江卫视》《苏州卫视》等多家新闻媒体报道。

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值