在AI浪潮的推动下,软件正在朝着更「智能」的方向发展。2017年,特斯拉人工智能部门主管、李飞飞高徒Andrej Karpathy提出了「软件2.0」的概念。
什么是「软件2.0」?其实就是神经网络。
在「软件1.0」时代,程序员用Java、Python、C++等语言进行编写计算机命令,每写下一行代码,就把程序空间中的某个具体的点定义为一个需要的行为。
而「软件2.0」则是用神经网络的权重编写的,解决问题的流程也被重新塑造,变成定义问题,收集数据,训练神经网络的权重,最后获得输出,人类编写软件的方式也因此发生根本性的改变。
AI在语音识别、图像识别、自然语言理解等问题上的突破,证明了「软件2.0」这种新范式的有效性。可以发现,现实世界中的很多问题都有这样的特性,即收集数据比显式编程容易得多,这也意味着,数据正在成为智能时代的基石。
如今,AI已经进入商业化落地的阶段,当前许多AI算法,也就是「软件2.0」都是数据驱动的,需要持续收集大量特定应用场景的数据,然后在应用中进行持续迭代。
根据iResearch发布的《2020年中国AI基础数据服务行业发展报告》 :一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练;一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求;语音方面,头部公司累计应用的标注数据集已达百万小时以上,每年需求仍以20%-30%的增速上升,不仅如此,随着IoT设备的普及,语音交互场景越来越丰富,每年都有更多的新增场景和新需求方出现,对于标注数据的需求也是逐步增长。
随着人工智能落地需求的种类和专业化程度的增加,AI训练数据本身的复杂度和种类也不断提升,人工智能需要的往往是定制化、专业化、可控的AI训练数据产品服务。为了获取更多更好的AI训练数据,越来越多的企业开始选择专业的AI训练数据服务公司来提供服务,其中以云测数据为代表的AI训练数据服务商,正在成为众多AI企业的选择。
目前,云测数据深度合作伙伴覆盖了汽车、手机、工业、家居、金融、安防、教育、新零 售、地产、生态系统等行业,涵盖了计算机视觉、语音识别、自然语言处理、 知识图谱等AI主流技术领域。
近日,云测数据还正式发布了其针对AI训练数据服务的平台产品——「云测数据标注平台4.0」。据了解,「云测数据标注平台4.0」为AI训练数据服务提供了齐全的标注工具,支持图片、点云、视频、文本、音频、数据清洗等各类型的标注,并针对每种类型设置了具有代表性的标注模板,可解决AI场景落地多样性、丰富性的数据需求。
相比传统的采集数据、训练模型的方式,云测数据提出了「数据在环和模型迭代在环新方式」,将数据在环开发打通,将数据采集、处理、标注、训练、模型输出进行持续迭代集成,实现一站式解决企业AI数据训练需求。
提升效率方面,「云测数据标注平台4.0」通过数据传输、任务创建、数据标注、数据质检、数据交付过程的全优化,提升数据的交付效率,节省时间,从而帮助AI数据训练综合效率提升200%、服务成本降低60%。
数据质量方面,云测数据通过三次审核,以及交付之前的抽审流程,保障了数据标注的整体质量。据介绍,云测数据的最高交付质量精度最高可达到99.99%。
数据安全方面,「云测数据标注平台4.0」支持自研网络传输工具加密传输、S3协议OSS私有安全存储、多用户访问权限管理、私有化安全部署等,并通过良好的数据保障机制,避免了数据外流和信息安全问题。
因此,云测数据等厂商在做的事情,就是在帮助AI更好的落地,真正推动「软件2.0」的发展。
当然,「软件2.0」不会完全取代1.0,但是它将接管「软件1.0」的大部分工作内容。以语音识别为例,以前语音识别采用的大多是高斯混合模型和隐马尔可夫模型,但今天几乎全部由神经网络构成,并且效果得到了巨大的提升。
可以预见,「软件2.0」,也就是AI的发展,仍将如火如荼。由于人工智能行业仍以监督学习或者半监督学习为主,因此对AI训练数据的需求将会步入常态化并蓬勃发展。
在AI训练数据这个市场里,云测数据目前的深度合作伙伴覆盖了汽车、手机、工业、家居、金融、安防、教育、新零售、地产、生态系统等行业,其中包含众多世界500强企业、高校科研机构、政府机构,头部AI企业和大型互联网企业。
随着AI训练数据服务行业的规范化,这对于云测数据等服务商来说,既是机会,也是挑战。面对竞争,只有更强的研发能力和更精细的运营管理,才有更大的发展潜力,并获取更多的市场份额。