一、什么是语音交互
基本概念:语音交互指人与人或人与设备通过自然语音进行信息传递的过程。其优点有(1)输入效率高;(2)使用门槛低;(3)解放双手,比如车载场景通过语音点播音乐和导航。但是其也存在很多缺点,比如复杂的声学环境、信息接收效率低等等。

二、为什么需要语音信号处理
一个成功的语音交互产品意味着对语音交互的场合和使用模式无约束,总而言之,语音信号处理的目的是为了使人和机器更容易听清语音,让语音交互更加自然和无约束。

三、不同的信号处理算法
下面列举几个场景的信号处理基本流程。
(1)针对不同的干扰因素,采用的不同的信号处理方法

(2)针对设备自身的干扰,采用声学回声消除

(3)语音分离应用

(4)波束形成应用

四、关于噪声抑制的一些方法介绍
噪声抑制的作用是消除或抑制环境噪声,增强语音信号。主要有以下的一些方法:
(1)基于统计模型方法
比如:最小均方根误差(MMSE)、最大似然估计(ML)、最大后验估计(MAP);
(2)基于子空间方法
比如:利用语音和噪声的不相关性,借助特征值、奇异值分解等手段分解到子空间处理;
(3)基于噪声估计
比如:递归平均、最小值追踪、直方图统计等常用的噪声估计手段;
(4)基于深度学习的语音增强方法
其中,两大类方法:masking和mapping;通过CNN、DNN、或GAN等方法。

五、推荐参考书
[1] 奥本海姆,《信号与系统》,电子工业出版社
[2]奥本海姆,《离散时间信号处理》
[3] 郑君里,《信号与系统》,电子工业出版社
[4] 赵理,《语音信号处理》,机械工业出版社
[5] 韩纪庆,《语音信号处理》,机械工业出版社
[6] 张贤达,《现代信号处理》,清华大学出版社
[7] 张贤达,《矩阵分析与应用》,清华大学出版社
[8] Van Trees,《Optimum array processing》
