浅谈语音信号处理

一、什么是语音交互

        基本概念:语音交互指人与人或人与设备通过自然语音进行信息传递的过程。其优点有(1)输入效率高;(2)使用门槛低;(3)解放双手,比如车载场景通过语音点播音乐和导航。但是其也存在很多缺点,比如复杂的声学环境、信息接收效率低等等。

图1   人机语音交互流程

二、为什么需要语音信号处理

        一个成功的语音交互产品意味着对语音交互的场合和使用模式无约束,总而言之,语音信号处理的目的是为了使人和机器更容易听清语音,让语音交互更加自然和无约束。

图2  应用场景

三、不同的信号处理算法

        下面列举几个场景的信号处理基本流程。

(1)针对不同的干扰因素,采用的不同的信号处理方法

图3  不同方法流程

(2)针对设备自身的干扰,采用声学回声消除

图4  回声消除流程

(3)语音分离应用 

图5  语音分离流程

(4)波束形成应用

图6  波束形成基本流程

四、关于噪声抑制的一些方法介绍

        噪声抑制的作用是消除或抑制环境噪声,增强语音信号。主要有以下的一些方法:

(1)基于统计模型方法

        比如:最小均方根误差(MMSE)、最大似然估计(ML)、最大后验估计(MAP);

(2)基于子空间方法

        比如:利用语音和噪声的不相关性,借助特征值、奇异值分解等手段分解到子空间处理;

(3)基于噪声估计

        比如:递归平均、最小值追踪、直方图统计等常用的噪声估计手段;

(4)基于深度学习的语音增强方法

        其中,两大类方法:masking和mapping;通过CNN、DNN、或GAN等方法。

图7  噪声抑制效果

 

五、推荐参考书

[1] 奥本海姆,《信号与系统》,电子工业出版社

[2]奥本海姆,《离散时间信号处理》

[3] 郑君里,《信号与系统》,电子工业出版社

[4] 赵理,《语音信号处理》,机械工业出版社

[5] 韩纪庆,《语音信号处理》,机械工业出版社

[6] 张贤达,《现代信号处理》,清华大学出版社

[7] 张贤达,《矩阵分析与应用》,清华大学出版社

[8] Van Trees,《Optimum array processing》

图8  推荐书籍
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我不是哆啦A梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值