专访微软研究院俞栋:基于深度学习的语音识别及CNTK的演进

作为人工智能领域的一个重要方向,语音识别近年来在深度学习(Deep Learning)的推动下取得了重大的突破,为人机语音交互应用的开发奠定了技术基础。语音识别技术演进及实现方法、效果,既是语音识别从业者需要系统掌握的知识,也是智能化应用开发者应当了解的内容。日前,微软研究院首席研究员、《解析深度学习-语音识别实践》第一作者俞栋接受CSDN专访,深入解析了基于深度学习的语音识别的最新技术方向,和微...
摘要由CSDN通过智能技术生成

作为人工智能领域的一个重要方向,语音识别近年来在深度学习(Deep Learning)的推动下取得了重大的突破,为人机语音交互应用的开发奠定了技术基础。语音识别技术演进及实现方法、效果,既是语音识别从业者需要系统掌握的知识,也是智能化应用开发者应当了解的内容。日前,微软研究院首席研究员、《解析深度学习-语音识别实践》第一作者俞栋接受CSDN专访,深入解析了基于深度学习的语音识别的最新技术方向,和微软团队的实践心得,并对微软开源的深度学习工具CNTK的迭代思路做了介绍。

俞栋介绍了deep CNN、LFMMI、深度聚类、PIT和RNN生成模型等最新的用于语音识别的深度学习模型,以及《解析深度学习-语音识别实践》中提到的迁移学习、计算型网络(CN)等技术。他表示,更困难环境下的识别(如远场、高噪音、或带口音的语音识别)会是下一个需要解决的问题,目前他的团队就专注于研发对各种场景都具有更强识别能力的模型,如deep CNN以及能提升远场识别率的模型(如PIT)。

作为研究人员,俞栋同样注重工程方面的实用性。问题的重要性、研究方向的潜力、解决方案的普适性和工程上的便利性,是他选择研究方向的四个重要考量因素。从工程的角度,他认为,计算型网络在语音识别中的应用,需要考虑训练的难易程度、模型的大小、以及运行时的速度、时延和能耗。这其实也是CNTK未来迭代的核心诉求。

此外,他表示,深度学习只是众多人工智能技术中的一种,主要擅长非线性特征提取和端到端的基于梯度的优化,无法单独用来解决许多实际问题,把多种技术有机地结合起来才是最佳方案。

微软研究院首席研究员俞栋

俞栋,1998年加入微软公司,现任微软研究院首席研究员,兼任浙江大学兼职教授和中科大客座教授。语音识别和深度学习方向的资深专家,出版了两本专著,发表了160多篇论文,是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。曾获2013年IEEE信号处理协会最佳论文奖。现担任IEEE语音语言处理专业委员会委员,曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE信号处理杂志等期刊的编委。

以下为采访实录:

语音识别的最新进展

CSDN:能否介绍当前语音识别领域最让您兴奋的一些进展,以及您目前所做的一些有趣的工作?

俞栋:自从2010年我们在大词汇量语音识别系统里成功引入深层神经网络后,语音识别研究和应用就进入了深度学习时代。最近这几年语音识别领域的发展速度大大超出了我们的预期,每年都有新的更有效的模型和方法被提出来。

在最近的这一年里,有几项工作让我觉得很有意思。

  • 第一项工作是包括IBM、微软、讯飞、上海交大等研究机构报告的深层卷积网络(deep CNN)在大词汇量语音识别中的成功应用。之前我们一般仅在底层使用卷积网络,在那样的框架下卷积网络大大增加工作量但识别上的性能优势并不明显,所以在书中我们没有花很大的篇幅介绍这方面的工作。但当我们应用类似于图像识别中所用的诸如VGG、GoogleNet、和ResNet那样的深层卷积网络时,识别率有了很大的提升,甚至超过了之前表现最佳的深层双向LSTM。由于时延(latency)的原因,双向LSTM不能用于实时系统,而深层卷积网络的时延比较小而且可控,所以可以用于实时语音识别系统中。

  • 第二

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值