【语音增强论文解读 08】S-DCCRN: SUPER WIDE BAND DCCRN WITH LEARNABLE COMPLEX FEATURE FORSPEECH ENHANCEMENT

该研究聚焦于超宽带和全频段语音去噪,提出了一种结合子带和全带建模的轻量级DCCRN子模块。通过使用可学习的频谱压缩(LSC),模型能动态调整不同频段能量,尤其改善高频部分的清晰度,为超宽带语音处理带来显著提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

动机:

大多数最近的语音增强方法主要集中在采样率为 16K Hz 的宽带信号上。然而,由于难以对更多频段特别是高频分量进行建模,因此仍然缺乏对超宽带(例如,32K Hz)甚至全频段(48K)去噪的研究。

方法:

提出了两个轻量级 DCCRN 子模块,分别用于子带和全带 (SAF) 建模,采用子带处理模块分别对低频段和高频段进行建模。应用全频带处理模块来平滑不同频带的边界。在模型中引入了可学习的频谱压缩(LSC),可以动态调整不同频段的能量。LSC 的使用导致高频段上的图案更加清晰,并且此更新带来了 0.07 的额外 PESQ 增益。受 DPT-FSNet 的编码器/解码器块的启发,在 STFT 之后使用复杂特征编码器 (CFE),在 iSTFT 之前使用复杂特征解码器 (CFD)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值