阅读笔记:基于深层神经网络的语音增强方法(一)

论文:徐勇. (2015). 基于深层神经网络的语音增强方法研究. (Doctoral dissertation).

贡献

传统语音增强根据前面帧估计噪声,在非平稳噪声的情况下,跟踪和估计噪声的策略失效,同时,为了推导方便,进行了对数据分布的高斯性假设是不合理的,限制了传统算法的上限。

基于有监督的语音增强算法,例如浅层人工神经网络的语音增强,受自身规模和数据量的限制,对于不匹配噪声泛化性差。HMM和非负矩阵分解的方法,架设了噪声和语音之间的独立性,限制了语音增强的性能。

近年来基于深度学习的语音增强算法,研究本身停留在匹配噪声环境下的探究。汪德亮教授提出的二值掩蔽或软掩蔽的学习方法,掩蔽在定义的时候,也假设了噪声和语音之间的独立性。本论文提出了一种几乎无审核假设的基于DNN的语音增强方法。贡献:

  • 提出了一种几乎无任何假设的基于DNN的语音增强方法:用回归DNN去学习带噪语音的对数功率谱和干净语音的对数功率谱之间复杂的非线性关系。对数功率谱上,对数的压缩遵从人耳听觉的一些特性,高斯归一化对输入特征和输出特征进行规整,让DNN更容易学习到降噪的复杂关系。基于受限玻尔兹曼机的无监督预训练用于初始化网络参数,在数据量较少时有效。基于最小批的最小均方误差准则对网络参数进行有监督调优。
  • 提出了一种基于DNN的语音增强的泛化方法:用100多中噪声类型的数据进行模型多条件多场景训练。DNN是离线学习,能记住一些噪声的模式,更好的抑制掉一些和训练集李噪声模式类似的非平稳噪声,甚至是极端得平稳噪声。丢弃法用于提升模型的鲁棒性,防止过拟合。噪声告知训练辅助DNN更好的区分噪声和语音。相当于是对当前句子所处环境的一种编码。全局方差均衡用来缓解回归DNN中的过平滑问题,提升整体听感。
  • 提出了一种可以应用于基于DNN的语音增强的自适应学习方法:用自适应方案,提升DNN对完全位置的场景(不同音量、噪声类型、语言场景)的增强能力。特征层面:特征能量的均值移位方法,解决能量不匹配问题,将测试句的特征分布变换到训练集语料所在的特征空间。基于IBM的动态噪声告知训练:用IBM去估计真实的噪声,动态的辅助DNN进行噪声和语音的分离,是一种迭代算的,能较好的适应未知场景的降噪。基于转移学习的语言自适应:针对不同语种之间的因素分布差异提出。
  • 提出了一种基于DNN语音增强中的多目标学习准则:优化训练DNN的目标函数。baseline中,在对数功率谱域上用基于最小均方误差的准则来训练模型,纯数学拟合,容易使DNN陷入过估计或欠估计。提出一种间接的多目标学习准则:先用类如MFCC的连续特征和LPS一起进行联合优化,再有一些分类信息,比如IBM和噪声编码也用来作为LPS的限制项,以此提高LPS的准确性。

这部分的问题

待学习的内容:

  1. 统方法:高斯性假设?
  2. 传统方法是怎么做的
  3. HMM、非负矩阵分解?
  4. 汪德亮老师的论文:二值掩蔽或软掩蔽的学习方法
  5. 回归DNN
  6. 对数功率谱?
  7. 高斯归一化
  8. 基于受限玻尔兹曼机的无监督预训练?
  9. DNN是离线学习?
  10. 最小批的最小均方误差准则
  11. 丢弃法?过拟合?鲁棒性?
  12. 全局方差均衡
  13. 特征能量的均值移位方法
  14. 基于IBM的动态噪声告知训练,IBM?
  15. LPS?联合优化

语音增强基础

语音增强

  1. 定义:干净语音在现实生活场景中受到各种噪声干扰时,需要通过一定的方法将噪声滤除,以提升该段语音的质量和可懂度的技术。
  2. 分类:**按照录音通道数划分:单声道语音增强和麦克风阵列语音增强。**单声道语音增强利用了时域和频域的信息,麦阵还利用了空域信息,因此单声道语音增强任务更为困难,但对硬件成本要求相对低一些。麦阵对每个麦克风的物理特性的一致性要求苛刻,对声源的时变空间位置要求较高,不允许声源大幅度快速移动。时域和频域信息在音源分离中起到主导作用,空域信息起到辅助作用,因此本文重点放在单通道语音增强上。按照语音增强方法划分:无监督语音增强方法(传统语音增强方法)和有监督语音增强方法。 传统方法无需离线训练,所需计算资源少,但存在不合理假设,限制性能上限。有监督方法利用已有语音数据或噪声数据,先训练相关的统计特性模型,以此指导将噪声从带噪语音中分离。
  3. 研究意义:通讯领域、智能手机、车载设备、智能家居等~

单通道语音增强发展

传统方法:基本上式基于无监督语音增强的方法,分为时域方法和频域方法

  1. 时域:参数和滤波的方法(利用滤波器估计发音器官的声道参数和激励源的激励参数)、信号子空间等的~(基于语音信号具有稀疏特性,把带噪语音信号分解为语音子空间+噪声子空间,去除噪声子空间的噪声,保留语音信号)。
  2. 频域:谱减法(基于一个简单的假设:假设语音中的噪声只有加性噪声,只要将带噪语音谱减去噪声谱,就可以得到纯净语音)、维纳滤波法(将带噪信号经过线性滤波器变换来逼近原信号,并求均方误差最小时的线性滤波器参数,对非平稳噪声抑制能力较弱,容易噪声语音失真)、基于语音存在概率的软判决增强方法、基于最小均方误差的语音幅度谱估计、对数谱域的最小均方误差的估计、基于最小统计量的语音增强方法、更平滑的最小统计量的语音方法、最小控制的迭代平均的噪声估计方法以及改进的最小控制的迭代平均噪声估计方法,目前最优!

有监督语音增强三大类:基于人工神经网络的方法、基于HMM模型的方法、基于非负矩阵的方法

  1. 基于人工神经网络的方法:用人工神经网络在时域学习带噪语音和干净语音的非线性关系、在频谱域学习、深度学习的出现
  2. HMM:根据训练得到的纯净语音和噪声信号的HMM构建含噪语音信号的HMM和每个状态对应的维纳滤波器,然后将含噪语音信号的状态概率作为维纳滤波器的加权系数,对含噪语音信号在频域内进行维纳滤波,最后经过傅里叶反变换,得到增强语音,从而消除噪声。此算法优点是解决了传统语音增强算法在非平稳噪声环境中存在噪声延迟等问题而产生的音乐噪声。缺点是计算量太大。
  3. 基于非负矩阵分解(NMF):假设有一些干净语音数据和一些噪声数据,分别学习语音和噪声的模型,通过寻找最优组合的办法,分解得到对干净语音信号的估计。

HMM和NMF是对语音和噪声的数据分别学习,没有很好的表征带噪语音和干净语音之间复杂的非线性关系,同时也面临如何增强系统在不匹配噪声类型测试中的鲁棒性问题

单通道语音增强方法阐述

噪声和语音的相互作用关系:加性噪声(主要的)和卷积性噪声。

传统频域增强方法:核心就是如何求取增益函数
在这里插入图片描述
谱减法:在非语音帧的地方迭代更新噪声的方差,然后将噪声的防战从带噪语音信号的能量中减掉,得到对干净语音信号的估计
~~

有监督语音增强算法:
1、基于浅层神经网络的语音增强:时域带噪信号、离散傅里叶变换到频域、分帧、利用人工神经网络学习变换域上的对应的干净语音信号、借助带噪语音信号的相位作为估计出来的干净语音的相位、用重叠相加法对语音波形进行重构。在加性噪声的假设下,最小均方误差准则用于寻找最佳的对短时频域幅度谱的估计其,反向错误传播算法(BP)用来训练神经网络
在这里插入图片描述
2、HMM
3、非负矩阵分解

  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值