AI落地虽千万难，智能语音往矣 | CCF-GAIR 2020

最新推荐文章于 2020-08-16 10:14:42 发布

喜欢打酱油的老鸟

最新推荐文章于 2020-08-16 10:14:42 发布

阅读量1k

点赞数

原文链接：https://www.toutiao.com/i6853037007552119304/

版权

人工智能专栏收录该内容

4209 篇文章 347 订阅

订阅专栏

2020-07-24 21:23:37

在1968年上映的科幻电影《2001:太空漫游》中，宇宙飞船的智能控制系统HAL-9000与宇航员能进行很智能的对话，当年这一幻想如今已成为现实。

AI落地虽千万难，智能语音往矣 | CCF-GAIR 2020

其实早在“人工智能”一词出现之前，就有人试图制造能听会说的机器，这背后的追求就是今天我们所熟知的智能语音。

然而历史上一项技术的发展往往都是屡遭曲折的，语音技术也不除外。

语音之难，难于上青天

语音技术的起源可以追溯到爱迪生发明留声机和贝尔发明电话。从这一时刻起，语音正式成为了一种可以被人为制造并物有效存储、传输的信号。

19世纪60年代声源-滤波器模型被提出，而在此后的几十年中，语音研究的基本概念没有突破。

这时不少美国学者认为实现语音识别恐怕要比登月还难，随后1969年随着阿波罗11号的登月，语音难于上终于成为了事实，语音识别与合成研究也遭遇了长时间的低谷。

统计才露尖尖角

随着计算机技术与人工智能技术的兴起，智能语音技术在20世纪80年代后成为热点，这个时候语音研究的最大突破，来自于李开复的导师、卡内基梅隆大学教授Raj Reddy用专家系统的方式做语音识别系统。

1988年，在导师Raj Reddy的支持下，李开复用统计方法来解决语音识别的难题并在博士论文中提出了世界上第一个“非特定人连续语音识别系统”，这一成果使得统计学方法在语音识别领域展露头角并逐渐代替之前的模型，同时它也推动了隐马尔可夫模型（HMM）在语音识别领域的进一步研究。

深度学习力挽狂澜

神经网络在1980年代中期到1990年代的二次复兴，使得研究者们开始探索将神经网络运用于语音识别研究之中。

但早期的神经网络的识别结果并不比GMM-HMM好，在很多人都放弃的时候，邓力却看好神经网络，2010年左右，邓力和俞栋将前馈神经网络引入到声学模型建模中并取得了很好的效果。

2010年10月，俞栋分享了使用深度神经网络和senones建模的相关研究的成果。这一技术之后在2012被微软在一次会议上当场演示英文语音识别之后合成中文语音——整场演示非常成功，引起了产业界的轰动，也揭开了语音产业应用的新一页。

智能语音蓝海已来

2008年，科大讯飞凭借领先的语音技术上市。

2010年，百度加入语音江湖，并于当年10月在掌上百度上推出语音搜索。

2010年前后，AI初创公司思必驰、云之声和出门问问等加入语音产业。

2014年之后，阿里、京东、腾讯等巨头成为新一波语音产业的助推者，相继从智能音箱、智能手表、车载语音设备等领域切入智能语音市场，自此智能语音时代蓝海已来。

其实，智能语音到来的背后是以深度学习为代表的整个AI蓝海时代的到来。人们这几年见证了层出不穷的模型、被刷爆的各大榜单，然而人们同时也见证了理性市场下AI落地之难。

以智能音箱为例，它在始推出之际确实很受人欢迎，但是这两年人们渐渐恢复理智，早已不是当年被AlphaGo震撼和痴迷的模样。于此同时，市面上的智能音箱却没有给人更多的惊喜。智能音箱同质化严重，人们很难区分各个音箱有何差别，也很难识别音箱的“智能”程度有几分；往往一时心动买来的音箱在满足几天好奇心之后只能作为“音箱”来听歌，甚至几个月后被人遗忘在角落。

我们不禁要问一句，AI落地真的很难吗？

正如吴恩达所言：AI是新的电力（AI is the new electricity）。作为推动未来世界生产力的基础设施，只有将其置于各种具体场景中，才能发挥最大化的价值。

AI落地难，除了AI技术水平本身的限制外，更多的还是在于具体场景的结合上需要更多的试错，以及如何弥补于大众认识间的误差。打个比方，现在AI的落地正如一百多年前的前汽车时代，当亨利·福特想要造出更好的车，而大众想要的却是“一匹更快的马”。

AI落地不难，今年上半年，一场疫情突如袭来。在疫情之中，无接触服务被迫切需要，智能语音也因此诞生了不少创新应用。如全程实现无接触、无障碍的智能语音电梯，人们通过语音操作就可以方便快捷地操作电梯完成“上行下行”、“到达指定楼层”等全部乘梯操作，有效减少了交叉感染，间接遏制了疫情蔓延。

当然，要让AI、智能语音走入更多的场景，我们要做的还更多。