“跨越语言,沟通无碍”微软语音机器翻译实时演示的惊人突破

(2012-11-12 15:17:27)

编者按:每一次,语音识别领域跨出的一小步,对于人类文明的传播来说,都是具有重要意义的一大步。微软首席研究官、微软研究院院长里克·雷斯特博士在日前举办的“21世纪的计算大会”主题演讲中展示的“语音机器实时演示”,向世人描绘了一幅“跨越语言,沟通无碍”的美好蓝图。此项技术一经展示,便记得了现场2000多名观众的欢呼与掌声。活动结束后,里克·雷斯特博士特意撰文,从历史背景与技术突破两方面,与我们分享微软语音翻译实时演示的“前世今生”。

 

      此文译自:Microsoft Research shows a promising new breakthrough in speech translation technology

作者:里克·雷斯特 

 

 

我在微软亚洲研究院于天津举办的“21世纪的计算大会”上所做的“语音机器翻译实时演示”引起了大家的一些关注,因此我想分享一些关于此项技术的历史背景,以及我们目前所取得的进展。


鈥溈缭接镅裕低ㄎ薨澪⑷碛镆艋鞣胧凳毖菔镜木送黄


在自然用户界面(NUI, Natural User Interface)领域,对计算机来说最重要也是最难的一点就是人类语音。 


过去60年,计算机科学家一直致力于开发一个能够理解人类说话内容的系统。一开始所用的方法就是简单的模式匹配。计算机检查人类语音产生的波形,并尽量与已知相关的特定单词相匹配。


虽然这种方法有时候有效,但极为有限。每个人的发音各不相同,甚至一个人也会以不同的方式说出相同的单词。因此,早期的系统无法运用于实际。 


上个世纪70年代末,卡内基梅隆大学的一群研究人员在语音识别上取得重大突破。他们使用隐式马尔可夫模型,利用来自多个人的培训数据来建立更为稳健的统计语音模型。在过去的30多年中,语音系统已经变得越来越好。过去10年,借助更好的方法、更快的计算机以及处理更多数据的能力,语音系统已经得到了很多实际应用。


目前,如果致电美国的银行,几乎可以肯定的是你在跟计算机对话,它可以回答有关账户的简单问题,并在必要时转给真人。当今市场上的一些产品,包括XBOX Kinect,都是利用语音输入来回答简单问题或导航用户界面。事实上,微软WindowsOffice产品自从上世纪90年代末起,就一直包含语音识别功能。该功能对那些有访问需求的客户而言,是无比宝贵的。


直到今日,即使是最佳的语音系统,在任意语音上的单词出错率还高达20-25%



就在两年前,微软研究院和多伦多大学的研究人员取得了另一项突破。通过使用一个名为深度神经网络(DeepNeural Networks)的技术,它仿照人脑行为研究人员能够训练出比之前方法更富辨别力、更好的语音识别器


1025日,在微软亚洲研究院于天津举办的21世纪的计算大会”上,我向现场两千多名观众展示了此项工作的最新成果,即“语音机器翻译实时演示”。我们能够将语音的单词错误率比之前的方法降低30%。这意味着之前4、5个单词中就会出现一个错误,而现在7、8个单词中才会出现一个错误。虽然仍谈不上完美,但这已经是自从1997年隐式马尔可夫模型出现以来,精确度的最大提升。随着我们在培训中增加更多的数据,我们将会得到更好的效果。


鈥溈缭接镅裕低ㄎ薨澪⑷碛镆艋鞣胧凳毖菔镜木送黄


文本机器翻译同样也很难。如同语音翻译,相关研究人员过去60年一直致力于文本翻译的开发工作。和语音翻译一样,统计技术和大数据的引入也在过去几年使机器翻译发生了翻天覆地的变化。


现在,数百万人每天使用必应翻译这样的产品,将网页从一种语言翻译成另一种语言。 


在我的演示中,我展示了如何将我讲话的文本进行翻译——在这种情况下,用两个步骤将我的英文转化为中文。第一步是提取我说的单词,然后找到相应的中文,虽然这并不简单,但确实是比较简单的一步。第二步是重新调整单词的顺序,使之符合中文习惯,这是语音正确翻译的重要一步。 


当然,英语文本以及翻译成的中文仍存在很多错误,而且翻译结果可能很搞笑。但是,这项技术已经发展的非常好,非常有用。 


最重要的是,我们已经达成了一个非常重要的目标,实现了像我这样说英语的人以自己的声音“说出”中文的愿望——也就是我在中国所演示的。它需要一个文本到语音的系统,该系统是微软研究人员利用数小时中国人说话的语音,以及从一小时预先录制的(英文)数据中提取我的声音属性(这次演示使用的是我之前的演讲录音)而开发的。


尽管这只是一个有限的测试,但是效果非常好,现场观众反响热烈。当我说英文时,系统自动整合所有基础技术,以提供一个强大的语音到语音的体验——用我的声音说出对应的中文。


鈥溈缭接镅裕低ㄎ薨澪⑷碛镆艋鞣胧凳毖菔镜木送黄

结果仍然不够完美,我们还需要去做许多工作,但是该技术非常有前景,我们希望几年后能真正拥有完全打破语言障碍的系统。


换句话说,我们可能不必等到22世纪才获得一个类似《星际迷航》宇宙翻译器那样的设备,我们希望移除语言间的障碍,这样人与人互相理解的障碍也就消除了。2000名中国学生的欢呼以及中国社交媒体前所未有的热议,说明越来越多的年轻计算机科学家也有同感。

 

 
 
 
 
 
 
 
 
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!
提供的源码资源涵盖了python应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值