ImageNet十年,AI数据标注如何蓬勃发展?

543 篇文章 13 订阅
251 篇文章 15 订阅

2016 年,AlphaGo 战胜李世石,成为新一代 AI 浪潮的重要里程碑事件。

经此一役,很多人都认识到了算法和算力对 AI 发展的重要性,确忽略了另一个重要因素:数据。

2009 年,时任斯坦福大学任助理教授的李飞飞,在CVPR 2009 上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文。来自全球 167 个国家近 5 万名工作者以众包的方式,通过三年合作努力,标注出 1500 万图像,最终成为 AI 历史上的有标志性意义的数据集。

如此庞大规模的标注性数据,对 AI 领域计算机视觉技术的发展起到了极大的推动作用。从 2010-2016 年,李飞飞等发起的 ImageNet 挑战赛成果取得了惊人的成绩,其中分类错误率从 0.28 降到了 0.03,物体识别的平均准确率从 0.23 上升到了 0.66。

正是因为如此大规模标注图片数据的出现,加上深度学习算法的发展,以及芯片算力的指数型增长,引发了如今的人工智能革命。

2017 年之后,ImageNet 挑战赛不再继续,算法层面已经过拟合了,在 Top 5 上的结果也逼近饱和。ImageNet 挑战赛完成了自己的使命,但是越来越多的图像、视频、语音、文本等数据集的出现,不断推动着 AI 在不同领域继续前进。

AI商业化落地:七分靠数据,三分靠trick

如今,AI 已经进入商业化落地的阶段,然而 AI 算法模型泛化能力依旧不够,通用性较差,当前许多 AI 算法都是数据驱动的,需要持续收集大量特定应用场景的数据,然后在应用中进行持续迭代。

《奇点临近》的作者雷·库兹韦尔表示,直到 2029 年,人类也才有超过 50% 的概率开发出通用AI。一些 AI 工程师表示“七分靠数据,三分靠trick”,可见数据对 AI 落地的重要性。

随着 AI 对数据的要求越来越高,对于很多企业来说,定向收集并标注高质量的数据并不是一件易事,因此衍生出了专业的数据标注服务厂商,进行对应数据采集标注服务。

以云测数据为代表的厂商,通过自建数据场景实验室和数据标注基地,目前已经实现为智能驾驶、智慧城市、智能家居、智慧金融、新零售等众多领域提供高精度、场景化的数据采集、数据标注服务,全方位支持文本、语音、图像、视频等各类型数据的处理。

据介绍,目前云测数据深度合作伙伴覆盖了汽车、手机、工业、家居、金融、安防、教育、新零售、地产、生态系统等行业,涵盖了计算机视觉、语音识别、自然语言处理、 知识图谱等AI主流技术领域,其数据标注的最高交付质量精度最高可达到 99.99%。

AI 落地需要场景化的数据,有效的数据,才能保证落地之后的真正效果。IT 界有这么句话“Garbage in, garbage out”,只有投入高质量的数据,才能得到有意义的结果。因此云测数据等正在做的事情,其实就是帮助 AI 更好地落地。

数据标注不易:如何实现场景化数据生产?

想要做“好的数据”并不容易,现阶段人工智能技术对数据采集的需求相对复杂、聚焦,难度较大。同时,随着人们对AI算法识别准确的要求更上一个台阶,具有更高精准度的数据也成为模型训练的重中之重。

据云测数据总经理贾宇航介绍,现阶段 AI 数据服务发展有着三个大趋势:

1)“数据的精准度将成为行业追逐热点和重要突破项 

随着人们对人工智能算法识别准确的要求更上一个台阶,具有更高精准度的数据 也将成为训练阶段的主流需求。云测数据在数据采集标注领域的重要优势之一, 就是能提供足够精准的训练数据,因此其最高 99.99%的精准度可较好的应对人工 智能数据精准度提升的情况,形成企业护城河。 

例如,在自动驾驶领域,数据需求正向着多模态的方向发展。所谓多模态,即是对多维时间、空间、环境数据的感知与融合,而云测数据如今已经可以提供全流程的数据采集标注服务。

以基于激光雷达生成的3D点云图像标注为例,在标注工具方面,云测数据全面支持3D点云标注、3D矩形框选、语义分割、目标跟踪(用于标注点云连续帧)、2D&3D融合标注等工具的使用,同时拥有快速切帧、复制功能、2D图辅助框、有效标注区域、预置框、自动贴合等一系列提高标注效率和准确度的辅助功能。

作为深耕智能驾驶领域的 AI 数据服务商,云测数据积累了大量3D点云数据标注经验,已输出了千万帧级别的高质量点云数据。

2)人工智能向垂直领域落地,场景化数据需求迎来增长 

在算法落地阶段,经过研发与训练之后,人工智能应用从理论走向市场,对细分 场景化的数据准确度提出更高要求。这些数据采集需求相对复杂、聚焦,难度较 大,对 AI 数据服务商的场景化采集能力提出了很高的要求。 以云测数据为例,为进一步满足场景化数据的需求,首创了“数据场景实验室”进 行相应的场景化数据生产。 

3)数据采集标注服务商的技术能力将变得更加重要,数据的隐私安全依旧需 要完善

技术层面来讲,随着 AI 训练数据需求多样化,以及复杂程度的提升,客户类型 丰富、数据需求多样、并发项目众多等因素对厂商的能力和效率提出更高要求。 如云测数据就拥有一套自主研发贯通创建任务、分配任务、数据处理、质检/抽 检、和数据安全管理等各环节于一体,并且能对图像、文本、语音、视频以及点 云数据做到一站式加工处理的管理和执行一体化平台。 

人工智能对数据提出更高需求,展现了在人工智能产业化落地进程中,数据发挥的重要作用。我们相信,数据标注产业将会不断发展,推动 AI 领域催生出更多令人兴奋应用和场景,助力 AI 大规模商业化落地,真正推动产业智能化的发展。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值