邓滨:信号处理+深度学习才能实现语音交互

本文探讨了智能硬件语音交互面临的现实障碍,如噪声、回声和远场问题,并强调了传统信号处理与深度学习结合的重要性。邓滨指出,尽管深度学习能解决部分噪声问题,但远场、回声和声源定位等问题仍需要信号处理技术的辅助。语音前处理的变革演进对于提升人机语音交互的识别能力至关重要。
摘要由CSDN通过智能技术生成

640?wx_fmt=jpeg


本文来自小鱼在家首席音频科学家邓滨在LiveVideoStackCon 2018讲师热身分享,并由LiveVideoStack整理而成。邓滨认为,传统的信号处理与前沿的深度学习技术结合,才能实现准确的语音交互,缺一不可。


文 / 邓滨

整理 / LiveVideoStack

直播回放:

https://www.baijiayun.com/web/playback/index?classid=18082933304314&session_id=201808300&token=HK8TUrosMf1t681rrJ0J_R1l3G4xGeRN6oakZ-l2IE6PADGtWOcHnW7r6LCYJ0wMkavU9LZ3eZYKp0fXMnVKLQ


大家好,今天与大家分享的是新潮AI硬件中的传统语音信号处理技术。


主要内容分为以下四个部分:


1、智能硬件语音交互的现实障碍

2、什么是语音前处理

3、信号处理 & 深度学习

4、语音前处理的变革演进


1、 智能硬件语音交互的现实障碍


640?wx_fmt=png


上图是美国著名科幻电影《钢铁侠》中的几个场景,可以说这部电影全面展现了未来先进人机语音交互的强大魅力。在电影中,主角托尼·斯塔克拥有一套名叫“贾维斯”的虚拟智能管家,无论是在家中还是户外,抑或是身披战甲时托尼都可随意与其对话并发号施令,而这位虚拟管家的回复之自然如同一位真实存在的伙伴,不仅对命令的理解准确无误,还能对托尼的一些比较无厘头的笑话做出与真人类似的回应,这种强大的交互能力让每一位看过此片的观众都期待能够在现实中也拥有一位这样的虚拟智能管家。实际上依赖当前的科技水平,在真实生活场景中实现如此自然的对话,仍是一件非常困难的事情。本次分享不会涉及太多有关深度学习、神经网络、知识图谱的技术范畴,也不会过多讨论诸如ASR、IOP等有关自然语言理解能力的技术,而是主要关注语音信号的拾取优化,能否进一步提升未来自然语音交互的识别能力。


以《钢铁侠》电影中的场景为例,在实际应用中,人机语音交互面临着诸多复杂的场景:


风噪、机械振动噪声:以钢铁侠战衣飞行为代表的应用场景,战衣飞行的速度越快,其产生的风噪与机械部件摩擦振动的噪声就越严重。


枪林弹雨的爆炸声:以钢铁侠作战为代表的特殊场景,战斗时周围环境中的爆炸声会对拾音系统产生严重干扰。


远场问题:以托尼的豪宅为代表的生活场景,如何保证托尼在宽敞大客厅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值