人工智能的高层建筑取决于数据基础设施

最新推荐文章于 2024-04-30 23:40:42 发布

科技峰行者

最新推荐文章于 2024-04-30 23:40:42 发布

阅读量594

点赞数

文章标签：数据应用技术系统识别

本文链接：https://blog.csdn.net/sunhf_csdn/article/details/80132694

版权

10月11日，在2017杭州•云栖大会上，阿里巴巴集团正式宣布成立“以科技创新世界”的达摩院。不同寻常的命名，也沿袭了阿里巴巴一贯的武侠情怀。在金庸小说中，达摩院作为武学研究机构，代表了修为的高境界。顾名思义，在阿里巴巴的未来版图中，达摩院的愿景自然也代表着科技的最高境界。

据了解，这个未来将承载“NASA计划”的实体组织——“达摩院”，将主要致力于基础科学和颠覆式技术创新研究。这是阿里巴巴逐渐摆脱电商的影子，向真正的高科技公司转型的一个里程碑。

致力于这种转型的不止阿里。百度也在试图脱离搜索的标签，从战略到产品逐渐向AI方向转型。近期，李彦宏不仅宣布计划明年在中国发布一款全自动驾驶公共汽车。还致力于AI人才方面的布局，直指阿里的“达摩院”。百度近期还在深圳发布名为“燎原”的AI开发者扶植计划，并正式启动AI加速器一期报名。该计划希望在2018年实现与500家以上的生态合作伙伴携手共赢，并为行业培养5000名以上的深度学习高端人才，同时遴选60家以上的创业公司进入AI加速器，并投资10家以上的AI创业公司，促进行业发展。

数据是人工智能时代的基础设施

抢滩科技制高点的为什么永远是BAT？资金和人才当然是巨头公司的绝对优势，然而最宝贵的财富是他们的数据实力。阿里一直强调大数据的重要性，认为数据才是大前提，而AI只是阿里商业生态的工具，阿里拥有的丰富应用场景也是大数据的重要来源。马云认为数据很重要，是原料，没有数据什么都不行。

数据显示，2016年中国数据总量占全球数据总量的14%。据预测，到2020年，中国的数据总量将占全球数据总量的20%，届时中国将成为世界第一数据资源大国和全球的数据中心。

数据已经成为了人工智能时代的基础设施

然而这些科技创新的动作，基本上属于远离应用的高层建筑。不管是企业，还是普通用户，这些顶尖的科技计划都只能被当做膜拜的对象，并不能对生活真正起到什么实际帮助。

其实，真正改变人们生活的是已经投入使用的人工智能技术。其中语音识别、图像识别等技术是应用最为广泛的技术。从早期苹果的Siri，到语音输入法、再到最近国内的智能音箱，越来越多AI语音产品走入了大家的生活。

AI风口下语音技术先行进入人们生活

AI语音技术的广泛应用，通过效率的提升，场景的便捷，重新定义了用户体验。

语音识别（Automatic Speech Recognition）是以语音为研究对象，通过语音信号处理和模式识别让计算机自动识别人类口述语言。简单来说，就是让机器可以听得懂人话。

在具体的生活中，语音识别技术解放了人类的双手并提高了效率。在一些基本操作中，无需要每个字都操作键盘或点击屏幕了。一分钟400字的速度靠打字是无法超越的，所以特定场景下，语音的技术可以大大的提升人机的效率。

目前我们用微信语音或者是Siri时，都属于近场的识别，而智能音箱，车载设备，机器人的语音都属于远场识别，远场识别会受到，距离，噪音，混响…等问题，需要有其他的相关技术来配合完成，提高识别率。

中国科技战略研究院有关专家对记者表示，“人工智能产业的发展离不开海量数据的支撑，数据训练量的大小影响着算法实现的成熟度。”

Google Now, Siri等已证明语音可以更智能，这也主要归功于应用场景的吻合及深度神经网络技术的引入。传统神经网络受限于数据不足，硬件功能不强大等因素；而深度神经网络则有几十上百层，每层有很多节点，更逼近人脑的思维能力，同时借助于大数据，极大地提升了语音识别准确率。

数据服务质量决定语音产品体验

在语音识别中，训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一，但是语料的标注和分析需要长期的积累和沉淀，随着大数据时代的来临，大规模语料资源的积累将提到战略高度。

这给从事语音技术领域的创业企业造成了很大的困难，如何获得优质的数据资源是直接影响产品体验的核心问题，BAT毕竟是少数寡头，大多数的语音技术产品依赖于成熟专业的数据服务公司。

数据服务的质量不仅决定产品的体验，更决定企业的生存和发展。这让企业选择数据服务公司的时候非常谨慎，然而近一年来，数据服务领域悄然杀出一匹黑马，收到了众多互联网巨头的合作要约。标贝（北京）科技有限公司成立于2016年2月，短短一年时间，已经成功为多个互联网巨头公司AI产品提供了不同规格的数据服务，并于近日正式获得全国高新技术企业认定。这个还未被广泛大众熟知的企业，其技术其实已经通过应用渗透到了大众生活的各个角落。

标贝科技是典型的幕后工作者，语音识别与合成是一件苦差事。在整个语音产业链条当中，标贝科技处于数据服务环节，具体而言，包括语音合成和语音识别项目，其中技术含量较高的语音合成又包括发音人选择、语料设计、语音采集、数据处理、语音深度加工等步骤，为客户提供一整套的定制化数据服务。数据类型上包括文本数据、语音数据等。

语音合成技术分两种，第一种称为拼接法。把语音里面所有的语料基础片段都录好，再根据需要，择取语音单元，并拼接成具体话语，这种方法需要大量的语音录制。第二种称为参数法。基于有限的语料数据通过参数模型训练，合成新语段，参数法的优势在于对录音数量要求较少，几千句话就能出一个合成效果。标贝科技合成部负责人王艳茹表示，无论客户用哪种合成技术，都离不开专业的语音数据服务，而标贝最核心的任务恰恰是提供优质的语音数据，让客户可以专心于合成技术的研发，快速实现高质量的合成系统。

提供优质的语音数据只是结果，过程还包括语料设计，语音采集，音字标注、韵律标注、声韵母切分等模块。在语料设计方面，标贝科技在前期就针对客户需求制定不同的语料设计方案，不同领域采用特定的语料；在语音采集方面，为了保障语音质量，标贝安排专人全程监督录音棚录制过程，确保源头语音素材品质；在数据处理环节，标贝先通过计算机程序预处理，再由人工完善矫正，这样不仅提高了工作效率，还提高了数据处理的准确性。

传统的人工标注算是一种劳动密集型工作，难以大规模拓展和复制，但是标贝科技基于深度学习的预处理系统，不仅可以大幅改善自动处理的正确率，而且效率提升达10倍之高，可以大大降低数据加工周期。

除了提供成熟的基础数据服务之外，标贝科技还可以针对语音合成系统提供一整套的TTS前端解决方案，包括分词词性、韵律、多音字、数字符号等，这套方案使得合成系统的前端模块达到行业领先水平，从而使语音合成效果更加接近真人发声的状态。

标贝科技还拥有一支庞大的识别项目团队，提供语音采集、转写、语音标注、平行语料、图片采集、图片标注业务，其中语音采集包括情感采集、国内方言和普通话、少数民族语言（藏维蒙）、定制年龄语音采集（包括儿童老年人）以及国外语种（50多个国家），图片采集包括人脸（自然和情感）、道路（汽车、街景）、手写体等。

标贝科技投入运营时间不久，已经凭借高质量的数据服务在业界享有良好的口碑，在未来，标贝科技还将继续推动业务智能化，除了通过人工智能技术把简单的标注处理的更好，还将努力通过技术手段提升后期合成的准确度。

随着人工智能技术的高速发展，语音技术将在日趋成熟的技术上继续蓬勃发展，更多能听懂人类，或者能与人类深刻交流的智能产品将不断丰富大众的生活，这一切都将基于准确、高效、优质的语音数据服务的支撑。以标贝科技为代表的数据服务公司，也将在追求突破创新的过程中，扎实做好幕后工作，帮助客户盘活各类大数据资源，充分挖掘海量数据中有价值的信息，实现数据价值最大化，以推动相关技术、应用和产业的创新。