comments on"An Experimental Study on Speech Enhancement Based on Deep Neural Networks"(一)

最新推荐文章于 2022-01-14 23:29:19 发布

大驰子在路上

最新推荐文章于 2022-01-14 23:29:19 发布

阅读量1.6k

点赞数 1

分类专栏：论文之我见文章标签： deep learning 深度学习机器学习语音增强

本文链接：https://blog.csdn.net/hyc__/article/details/39141503

版权

该论文介绍了基于DNN的非线性回归模型在语音增强中的应用，通过预训练和微调提升性能，对比L-MMSE方法在多个质量指标上表现更优。研究包括DNN的非线性映射、上下文信息捕捉和使用RBM进行特征学习。

摘要由CSDN通过智能技术生成

这篇论文是由中科大语音与语言信息处理实验室写的，今年1月发表在IEEE Signal Processing Letters(Impact factor :1.67)

论文大致分为两个部分：语音增强的建模和基于TIMIT数据集的模型检验、对比

论文的创新点/突破点：

·提出了一个应用于语音增强的基于DNN的非线性回归模型；

·使用了大量的训练集（浅层神经网络的劣势）；

·通过把context information连接到一个供DNN（深度神经网络）学习的长特征输入向量里，使得DNN能够随着时间轴（利用多帧展开）和频率轴（利用有全频点的对数频谱特征）捕获内容信息（context information)（数据驱动方法的劣势，如在时-频域进行二进制分类判决）；

·与L-MMSE（Logarithmic minimum mean square error)方法相比，在选取的三个质量指标：segmental SNR(SegSNR)和log-spectral distortion(LSD),perceptual evaluation of speech quality(PESQ) 方面，DNN算法表现出更好的性能。同时在主观听力测试中，DNN算法表现更优。

一、基于DNN的非线性回归模型

语音增强（speech enhncement）的主要目的就是行含噪音的语音信号（noisy speech)提取出有用信号(clean speech），或者说是noisy sppeech到clean speech的映射。

这篇论文就是基于DNN的非线性回归模型，利用多种条件训练下（说话者、噪声类型、信噪比）的数据，学习到从含噪音的语音信号到有用信号的复映射函数，从而达到语音增强这一目的。这里的复映射函数，对应的是图1的DNN decoding。系统图如下：

论文看到这里，再往下看，我几乎看不懂了，模型主要涉及的两个过程：通过噪声数据对深度神经网络进行预训练、基于最小均方差的微调。这两个过程简直是神来之笔，完全不知所云。后来，我就试着找深度神经网络/深度学习的最原始/基本的思想，结果被我找到了，看完这个，有种醍醐灌顶的感觉。

--------------------------------------------延伸内容-------------------------------------------------------------------------------------------------------

引言

2006年，加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点：1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；2）深度神经网络在训练上的难度，可以通过“逐层初始化”（layer-wise pre-training）来有效克服，在这篇文章中，逐层初始化是通过无监督学习实现的。

当前多数分类、回归等学习方法为浅层结构算法，其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受到一定制约。深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少数样本集中学习数据集本质特征的能力。（多层的好处是可以用较少的参数表示复杂的函数）

deep learning训练过程

2006年，hinton提出了在非监督数据上建立多层神经网络的一个有效方法，简单的说，分为两步，一是每次训练一层网络，二是调优，使原始表示x向上生成的高级表示r和该高级表示r向下生成的x'尽可能一致。方法是：