【干货】怎样用深度学习做语音识别

【新智元导读】吴恩达曾经预测当语音识别的准确率从95%上升到99%时,语音识别将会成为人类与计算机交互的新方式。归功于深度学习,这4%的准确率的提升使得语音识别从难以实际应用的技术变成有无限的应用潜力的技术。本文深入浅出介绍了怎样用深度学习做语音识别。

语音识别正在进入我们日常生活的方方面面。语音识别技术内置在我们的手机、游戏机和智能手表中,它甚至能将我们的整个家庭智能化。只需50美元就能买到一个Amazon Echo Dot,它像一个魔术盒子,可以帮你订购比萨,向你播报天气预报等等,你只需大声对它说:

“Alexa,order a large pizza!”

语音识别技术已经发展了几十年,近年突然变得炙手可热,这归功于深度学习终于使得语音识别的准确率提升到足矣让这项技术在实验测试以外的实际场景中应用。

吴恩达曾经预测当语音识别的准确率从95%上升到99%时,语音识别将会成为人类与计算机交互的新方式。这4%的准确率的提升使得语音识别从难以使用到潜力无限。多亏深度学习的发展,我们终于到达语音识别的顶点。

让我们一起来了解怎样用深度学习做语音识别。

机器学习并不总是黑盒

如果你对神经机器翻译的工作机制已经有所了解,你可能会想到,我们可以简单地将声音作为输入喂进神经网络,然后训练网络产生文本:

上图是使用深度学习做语音识别的最佳机制,但我们目前还没有达到这一步。

一个很大的问题是语速不同。某些人说“hello!”会很快速,有些人会拉得很长地说“heeeelllllllllllllooooo!”,这会产生更长的声音文件和更多的数据。这两个声音文件应该被识别为完全相同的文本——“hello!”这里面的难点在于把不同长度的音频文件自动对齐为一个同样长度的文本结果。

要解决这个问题,我们需要使用一些特

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值