【语音增强论文解读 07】基于UFORMER的单通道语音增强和去混响

本文介绍了基于UFORMER的单通道语音增强和去混响技术,该技术结合了复数谱建模和时空注意力机制。通过Encoder、Decoder和Dilated dual-path conformer模块,UFORMER在保持端到端训练的同时,提升了语音处理的性能,尤其在对比DCCRN、TasNet等模型时表现出优越的增强和去混响效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者:Yihui Fu, Yun Liu, Jingdong Li, Dawei Luo, Shubo Lv, Yukai Jv, Lei Xie

1.动机

        近年来,研究者开始尝试采用复数谱,对输入语音频谱的实部和虚部同时进行建模,能够获得更高的理论上限,从而逐渐成为研究的热点方向。但此前的工作没有对这两个域的特征进行联合优化以发掘其潜在的内部联系。由于空间信息的丢失,在单通道场景下的语音去混响充满了挑战。另一方面,从Transformer模型进化而来的Conformer模型因其强大的时序建模能力而在端到端语音识别任务中取得了优异的效果。然而对于语音前端处理模型,不同于语音识别模型,不能只关注时序信息而忽略频带信息,因为不同频带包含不同的能量和信息,需要更精细化的建模方式。因此研究者对自注意力机制进行了双路(Dual-path)改造,即在时频两个维度分别进行注意力机制学习。

2.网路架构

        Uformer包含Encoder、Decoder和Dilated dual-path conformer三个主要的模块。如下图

Encoder通过卷积层的堆叠以学习到语音的高维特征,Decoder通过反卷积层的堆叠以将高维特征映射到与输入相同维度。每层Encoder和Decoder都使用了Hybrid Encoder and Decoder架构来同时进行复数谱和幅度谱的建模和信息融合,每层Encoder和Decoder之间都使用了Encoder Decoder Attention机制来学习到对应层之间的相关性。对于Dilated dual-path conformer,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值