PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network

最新推荐文章于 2023-07-17 01:09:58 发布

ddana_a

最新推荐文章于 2023-07-17 01:09:58 发布

阅读量556

点赞数

分类专栏：语音增强文章标签：机器学习

原文链接：https://maxwell.ict.griffith.edu.au/spl/publications/papers/spcom19_aaron_deep.pdf

版权

语音增强专栏收录该内容

3 篇文章 0 订阅

订阅专栏

时频域掩蔽是单通道语音增强的主流方法。近年来，除了振幅预测外，相位预测也成为人们关注的焦点。本文提出了一种相位和谐波感知的深度神经网络
PHASEN，为了这个任务。与以往直接使用复数理想比率掩模来监督DNN学习的方法不同，我们设计了一个双流网络，其中振幅流和相位流用于振幅和相位预测。我们发现两个流之间应该相互通信，这对相位预测至关重要。此外，我们提出频率变换块来捕捉沿频率轴的长程相关。可视化结果表明，学习后的变换矩阵可以自发地捕捉到谐波相关，这对T-F谱图重建是有帮助的。通过这两项创新，PHASEN获得了处理详细相位模式和利用谐波模式的能力，在AVSpeech+AudioSet数据集上获得了1.76dB的SDR改进。在这个数据集上，它也比谷歌的网络取得了显著的收益。在Voice Bank+DEMAND数据集上，PHASEN在四个指标上比以前的方法有很大的优势。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network

时频域掩蔽是单通道语音增强的主流方法。近年来，除了振幅预测外，相位预测也成为人们关注的焦点。本文提出了一种相位和谐波感知的深度神经网络PHASEN，为了这个任务。与以往直接使用复数理想比率掩模来监督DNN学习的方法不同，我们设计了一个双流网络，其中振幅流和相位流用于振幅和相位预测。我们发现两个流之间应该相互通信，这对相位预测至关重要。此外，我们提出频率变换块来捕捉沿频率轴的长程相关。可视化结果表明，学习后的变换矩阵可以自发地捕捉到谐波相关，这对T-F谱图重建是有帮助的。通过这两项创新，PHASEN获得了处
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。