【问】
最近看到中国移动推出了自己的语音平台,叫灵犀云,从品牌上看来是跟那个灵犀语音助手对应的,而且也是跟科大讯飞合作的产物http://software.it168.com/a2014/1226/1693/000001693796.shtml
感觉现在做语音平台的已经有不少公司了,科大讯飞走在最前面自不用说;BAT三家都分别自建了语音能力;云知声之类的创业公司发展速度也很猛。那么传统运营商在这块市场里有什么优势呢?
【答】
其实电信运营商来做智能语音技术应该是有其先天优势的。
这里以语音识别为例简单说说。目前在这个领域国内大多数公司都已经能达到90%以上的识别准确率,走得最前的科大讯飞据说能达到97%以上,如果用过讯飞输入法的语音输入的话,应该能有所体会。虽然从数字上看到准确率已经很高了,但在实际应用时由于受太多因素影响(包括环境噪音大小、方言种类、语速、录音质量好坏等),带给终端用户的体验还存在不少提升空间。
而要提高语音识别率,关键有两点:
第一,算法的持续优化;
第二,海量的语音数据积累。
这其实就跟人类学习语言是一个道理。首先,你的大脑要有学习认知的能力(相当于算法);同时,你还要掌握充分的词汇量,接受足够的听力训练(相当于语音数据),你才能听懂一门语言(语音识别)。
如果说算法的持续进步提升可以依靠基础研究和人才的不断投入在相对短的时间内出成绩,那么海量语音数据的积累就不是那么简单的事了。
从哪里能获取海量的语音数据呢?以科大讯飞举例,经过多年来的建设和耕耘,可以做到通过自家的互联网应用及语音云来积累用户使用时产生的语音数据,这是一种可以实现良性循环的数据积累方式。然而,更多的创业公司,可能是通过以下这种方式来实现原始积累的。
http://tech.163.com/13/0803/10/95BKBQVT000915BF.html走在北京海淀某高校的校园里,你可能会被人冷不丁地叫住,邀请你用自己的乡音,照着本子,对着他手里的移动设备,念一段日常生活的对白。
同样的一幕,换不同的文本,重复成百上千次。这看似“笨重”的工作,却是智能语音流水线的开端。
《智能语音登陆战:如何真正成为移动互联网入口》
通过请人大批量地录音,或者通过向相关机构购买,即使如此能获取到的数据还是远未足够的。这也成为了提高语音识别率的其中一个主要门槛。
但是对于像移动这种大型电信运营商来说呢,这方面恐怕就不是问题了。我在知乎上的一条问题里看到知名知友Luo Patrick写的下面这段话,这还是写在移动刚入股讯飞时的,对这方面的优势已经描述得很到位了:
…………http://www.zhihu.com/question/20424395/answer/15107677
我觉得这是非常有眼光的战略投资。中国移动抓到了为数不多的属于自己的机会。
补充一个技术细节。
语音识别的基本原理是用海量样本数据调教识别模型,显然在中国能拿到的最海量、最贴近语音识别需要的样本,就是中国移动网络上无数的通话语音。
…………
《如何评价中国移动投资科大讯飞?》
想想确实是这样对么?作为用户数已经超过8亿的国内最大运营商,中国移动所能获取并积累的,用“海量”来形容可能还有点不够力度……总之你能想象,电信运营商在这方面的条件真的是先天性的,而且得来毫不费功夫。
至于另外一个因素——算法方面的研究投入,对有钱就是任性的运营商们来说,是不是相对也不是什么大问题呢?
所以,在语音识别乃至整个智能语音市场来说,运营商的插足具备不可小觑的影响。更何况,现在移动是跟行业内的巨人科大讯飞深度合作而推出的这个灵犀云,用的核心技术就是源自讯飞的。在基础算法研究+语音数据 都能得到保障的前提下,技术上的突破可能是指日可待的事。