语言分离（噪声中分离）

最新推荐文章于 2024-04-13 09:50:25 发布

问道_bin

最新推荐文章于 2024-04-13 09:50:25 发布

阅读量6.9k

点赞数 5

分类专栏：语音分离文章标签：语音分离

本文链接：https://blog.csdn.net/dream_bin123/article/details/80031447

版权

语音分离专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一篇论文：《基于深度学习的语音分离研究_张晖》

第二篇论文：《基于卷积神经网络的语音分离方法研究与实现_杨冰晴》

第三篇论文：《基于深层神经网络的语音增强方法研究_徐勇》（大神的论文，各种公式，看不太懂）

传统方法：根据所使用的麦克风数量的不同，语音分离的方法可以分为单声道（一个麦克风）分离和多声道的基于麦克风阵列（多个麦克风）的分离。

单声道语音分离，一般用到两种技术：语音增强，和计算听觉场景分析。

语音增强通过分析语音和噪声的一般统计量，从带噪语音中估计噪声，进而从带噪语音中减去噪声估计，得到目标语音。其中最简单的也是使用最广泛的技术是谱减，它估计噪声的功率谱，从带噪语音中减去噪声得到目标语音。

计算听觉场景分析模拟了人类听觉系统的场景分析过程，它将听觉场景分析分成分段（ｓｅｇｍｅｎｔａｔｉｏｎ）和组织（ｇｒｏｕｐｉｎｇ）两个步骤，首先利用时间连续性及谐波特性等信息，将语音信号分解成独立的来自于单个声源的片段，再根据语音基音（ｐｉｔｃｈ）以及语音开始（ｏｎｓｅｔ）和结束位置（ｏｆｆｓｅｔ）等线索，将语音片段组织连接起来。这些连接起来的语音就是分离得到的目标语音。

第二篇论文的分类：

2.1 基于计算听觉场景分析（ＣｏｍｐｕｔａｔｉｏｎａｌＡｕｄｉｔｏｒｙＳｃｅｎｅＡｎａｌｙｓｉｓ，ＣＡＳＡ）的语音分离、

2.2 基于频谱分解的语音分离

2.3 基于模型的语音分离（机器学习）

第三篇论文的分类：

3.1 谱减法估计噪声的高斯模型，y-噪声模型的均值

3.2 维纳滤波器法

3.3 基于最小均方误差准则的幅度谱和对数谱估计：？？没看懂

有监督语音增强算法：

3.1 基于浅层神经网络的语音增强

3.2 基于隐马尔可夫模型的语音增强？

3.3 基于非负矩阵的分解的语音增强？

多声道的基于麦克风阵列的分离方法使用两个或两个以上的麦克风。

它使用空间滤波或者波束合成（ｂｅａｍｆｏｒｍｉｎｇ）方法，利用麦克风阵列的麦克风排列方式加强来自某一特定方向的信号，从而使其他方向的信号相对减弱，达到减弱噪声、分离语音的目的。最简单的方法是延迟相加技术（ｄｅｌａｙ－ａｎｄ－ｓｕｍ）：首先将各个信号做适当延迟，使他们在时间上对齐，再将对齐后的信号相加。因为多个麦克风采集到的信号之间存在相位差，求和会减弱没有对齐的来自非目标方向的信号。空间滤波技术能够减弱的噪声源个数受到了空间形状、大小以及麦克风阵列上麦克风的排列方式的限制。但大体来说，麦克风越多、麦克风阵列的尺寸越大，能减弱的噪声源也就越多。这种方法利用空间信息分离语音，所以无法减弱和目标语音处于相同或者接近位置的噪声源。除此之外，物体反射造成的混响会破坏声源的方向性，在混响条件下空间滤波方法的性能会大幅下降。

第二篇论文：

1 固定波束形成技术、

2 自适应波束成形技术、

3 后置滤波技术和信号子空间技术

机器学习：

分别以时频掩蔽和目标语音频谱为目标的这两种语音分离方法，分别称为时频掩蔽方法 和 频谱映射方法。

新近的研宄将语音分离看作一个有监督学习问题新近的研宄将语音分离看作一个有监督学习问题。早期工作受到了计算听觉场景分析中时频掩蔽（ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｍａｓｋｉｎｇ）技术［７，２３，２４］的启发。在计算听觉场景分析中的一个重要的目标是理想二值掩蔽（ｉｄｅａｌｂｉｎａｒｙｍａｓｋ，ＩＢＭ）［１８］。理想二值掩蔽在带噪语音的时频表示上标注出特定时频单元是否被目标语音主导，即目标语音的能量是否高于噪声的能量。根据人类听觉系统的掩蔽效应（ａｕｄｉｔｏｒｙｍａｓｋｉｎｇ）｜２５］，时间、频率相近的（在同一个时频单元内的）两个声音信号中，能量低的那个信号会被能量高的那个掩蔽，听觉系统无法感知到被掩蔽掉的信号。利用理想二值掩蔽去除噪声主导的部分，人们就无法感知到噪声的存在了。

当把理想二值掩蔽作为计算目标时，语音分离就变成了一个二元分类问题。在训练的时候，把理想二值掩蔽作为训练目标，测试时再用训练好的模型来预测理想二值掩蔽。理想二值掩蔽是有监督的语音分离研究中使用的第一个训练目标。

汪德亮等系统分析了以上的特征，使用拉索（Ｌａｓｓｏ）方式选择出了对语音分离最有效的特征组合为：梅尔倒谱系数、相对谱变换感知线性预测系数、振幅调制谱和语音基音特征。目前，在有监督的语音分离中，最常使用的输入特征是语音短时傅里叶变换的振幅谱。

输出信号：目标语音或各种时域掩蔽

时域掩蔽：

理想二值掩蔽：理想二值掩蔽是最早使用的训练目标，在一个时频单元里，如果局部信噪比（ｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏ，ＳＮＲ）超过一个阈值，理想二值掩蔽在这个单元是１，否则是０。理想二值掩蔽里面的非零值标注出了目标语音主导的时频单元。

理想浮值掩蔽：

频谱振幅掩蔽、复数域的理想赋值掩蔽、隐式时频掩蔽

整体模型：

输入信号：带噪语音信号y=s+n;信号s；噪声n；

时频分解：但要前端处理为二维的时间频率信号（一般为短时傅立叶变换）

短时傅立叶变换：

$计算短时傅里叶变换(STFT)的过程是将长时间信号分成数个较短的等长信号（信号和窗函数相乘）。$

$一个函数可以先乘上仅在一段时间不为零的窗函数再进行一维的傅里叶变换。再将这个窗函数沿着时间轴挪移，所得到一系列的傅里叶变换结果排开则成为二维表象。数学上，这样的操作可写为：$

$X(t,f)=\int _{{-\infty }}^{{\infty }}w(t-\tau )x(\tau )e^{{-j2\pi f\tau }}\,d\tau$

反短时距傅里叶变换，其数学类似傅里叶变换，但须消除窗函数的作用： $x(t)=w(t_{1}-t)^{-1}\int _{-\infty }^{\infty }X(t_{1},f)e^{j2\pi ft}\,df;w(t_{1}-t)\neq 0$

时频分解将输入的时间域的目标语音信号ｓ⑴、噪声信号ｎ（ｔ）和混合的带噪语音信号ｙ⑴转换到时间－频率域，得到它们的时频表示Ｓ（t,f）、Ｎ（ｔ，f）和Ｙ（t,f）。

目标计算与特征抽取：

训练目标：假设为理想浮值掩模因为时频分解后有Ｓ（t,f）、Ｎ（ｔ，f）和Ｙ（t,f），计算出理想浮值掩模即可。

时频掩蔽方法：目标函数掩模函数

频谱映射方法：目标函数 S(t,f)

特征抽取：现在常用信号的振幅谱作为特征：

语音是一个连续信号，在时间维度和频率维度都有很强的相关性，一个时频单元在时间和频率上的上下文信息对模型学习很有帮助。假设取前Ｋ帧和后Ｌ帧作为时间上下文，全部频率通道作为频率上下文，则得到的特征向量为：

例如：我们使用基于短时傅立叶变换的特征。在１６ｋＨｚ的采样率下，用５０％的重叠的３２０个采样点（２０ｍｓ）的汉明窗得到短时傅立叶变换系数，之后取前１６丨个系数，取绝对值，开三次方，并将规范化到零均值、一方差。前后各扩展两帧，每帧的特征包含１６１ｘ５＝８０５维，

测试：测试输出信号的掩模，原信号的Y（t，f）×掩模，然后做短时傅立叶逆变换，的得到原始信号。

问道_bin

关注

5
点赞
踩
51

收藏

觉得还不错? 一键收藏
1
评论
语言分离（噪声中分离）

第一篇论文：《基于深度学习的语音分离研究_张晖》第二篇论文：《基于卷积神经网络的语音分离方法研究与实现_杨冰晴》第三篇论文：《基于深层神经网络的语音增强方法研究_徐勇》（大神的论文，各种公式，看不太懂）传统方法：根据所使用的麦克风数量的不同，语音分离的方法可以分为单声道（一个麦克风）分离和多声道的基于麦克风阵列（多个麦克风）的分离。单声道语音分离，一般用到两种技术：语音增强，和计算听觉场景分析。语...
复制链接

扫一扫