讯飞语音识别_清晰识别多人混叠的对话!科大讯飞语音识别技术再攀新高

#2020科大讯飞全球1024开发者节#10月23日,以 “AI焕新 · 更美好”为主题的2020 科大讯飞全球 1024 开发者节正式开幕伴。当下的AI技术已经全面融入到了我们生活的方方面面,为我们提供更加智能和便捷的服务。在最常见的人工智能交互的场景当中,语音交互想必就是重中之重了。针对这一重点项目,科大讯飞AI研究院常务副院长刘聪做了细致的讲解,让我们对当前语音交互技术有了更深化的认识。

01bc47658af9e63426c8dad072a6b3ff.png

众所周知,语音输入和识别历来都是讯飞的传统强项,从早期的呼叫、导航到2010年发布的讯飞超脑语音云和输入法,为用户们开启了中文语音输入的新时代。讯飞还通过深度学习等框架持续的迭代效果,又陆续推出了方言识别、远场交互、多麦克风阵列等相关的功能。2015年,讯飞又将人机交互的场景拓展到人人对话的场景。总的来看,讯飞在前几年将语音听写从简单场景的可用做到了通用,进而做到了像演讲、会议、庭审等很多复杂场景的好用。像语音控制、命令唤醒,讯飞也是从简单场景的可用,做到了复杂场景的好用。

那么问题来客,随着现在语音识别在众多领域上的成熟和进步 ,其下一步发展方向是什么?又有哪些新技术可以从实验室走到成熟,提供更加惊艳的使用体验呢?

e2f70bdaafbd91a0177e4d52e8a8b950.png

首先,进一步升华的语音识别需要持续的去挑战更加复杂的场景,去实现从语音到声音,从单纯的文字内容识别到音频的全场景解析——例如在观看直播带货的过程当中,我们可以看到这里面有很多的更加复杂的声音场景需要去解决。例如背景可能是复杂多样的,可能有视频声、游戏声或者音乐声。此外直播连麦的时候还会经常出现多人混叠的对话,还会包含像笑声、掌声、各种音效等声音,所以就对现在的语音识别技术提出一些新的方案。去解决这样复杂的问题。

5cd54fea32e5fb8c17945b2309636f58.png

科大讯飞针对上述的复杂场景做出进一步优化,最大程度降低各种背景的噪声对识别精度的影响。还要针对性的将用户感兴趣的声音提取出来。在具体操作层面来说,首先讯飞可以通过多分辨率特征提取的声音检测方案,再结合序列训练,对一些相似声音进行精细建模,可以实现将笑声、音效等非语音的声音和语音内容分离。针对包含语音的有效内容,同时使用了语音降噪和分离的方案,综合利用声音、文本、说话等信息,以及在有条件的情况下,还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模。最大程度的保证讯飞能够持续保持语音合成以及语音识别技术的领先。

当然了,科大讯飞也会和众多合作伙伴一起,不断提升在直播等复杂场景上的语音识别效果,并且准确率从60%提到了85%。相关的技术也会在科大讯飞的开放平台——讯飞听见等上线。由此可见,在科大讯飞的在指引下,未来的语音识别,将会给予我们更加惊艳的表现。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值