![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音增强
ddana_a
这个作者很懒,什么都没留下…
展开
-
PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network
时频域掩蔽是单通道语音增强的主流方法。近年来,除了振幅预测外,相位预测也成为人们关注的焦点。本文提出了一种相位和谐波感知的深度神经网络PHASEN,为了这个任务。与以往直接使用复数理想比率掩模来监督DNN学习的方法不同,我们设计了一个双流网络,其中振幅流和相位流用于振幅和相位预测。我们发现两个流之间应该相互通信,这对相位预测至关重要。此外,我们提出频率变换块来捕捉沿频率轴的长程相关。可视化结果表明,学习后的变换矩阵可以自发地捕捉到谐波相关,这对T-F谱图重建是有帮助的。通过这两项创新,PHASEN获得了处翻译 2020-11-04 14:46:58 · 556 阅读 · 0 评论 -
Deep learning for minimum mean-square error approaches to speech enhancement
介绍目标是缩小MMSE和深度学习语音增强方法之间的差距,生成比最近基于masking和mapping的深度学习方法更高质量和可理解性分数的增强语音。研究了深度学习方法可以为上述MMSE方法提供的性能改进。每种MMSE方法都需要对带噪语音频谱成分进行先验信噪比(SNR)估计。这里采用了深度学习的方法准确估计先验信噪比。 在这项工作中,使用语音质量和可懂度的主客观测量来评估使用深度学习的MMSE方法。测试条件包括真实世界的非平稳噪声源和多个信噪比水平的有色噪声源。将使用深度学习的MMSE方法与最近基于掩蔽翻译 2020-11-04 14:38:44 · 409 阅读 · 0 评论 -
U-Net
自动歌唱声音分离的任务包括估计孤立地唱出的旋律和伴奏的声音。 清晰的声音信号有助于其他相关的MIR任务,例如歌手识别[18]和歌词转译。使U-Net体系结构适应了声音分离的任务。该体系结构被引入生物医学成像中,以提高神经元结构的显微图像的精度和定位。该体系结构建立在完全卷积网络上,类似于反卷积网络。在反卷积网络中,一堆卷积层(每个层将图像的大小减半,但将通道数量加倍)将图像编码为较小的深度表示。然后通过一堆上采样层将该编码解码为图像的原始大小。在自然图像的再现中,通常仅一个像素的位移就不会被认为是主要的翻译 2020-08-29 06:37:37 · 1603 阅读 · 0 评论