AAAI 2020丨从嘈杂视频中提取超清人声,语音增强模型PHASEN已加入微软视频服务

微软在Ignite大会上展示了Microsoft Stream的新特性,使用PHASEN模型从嘈杂视频中提取清晰人声。PHASEN是微软亚洲研究院与Microsoft Stream团队共同研发的语音增强模型,通过双流结构处理相位和强度信息,有效降噪并提升了语音质量,已在AAAI 2020会议上发表。
摘要由CSDN通过智能技术生成

AAAI 2020丨从嘈杂视频中提取超清人声,语音增强模型PHASEN已加入微软视频服务

编者按:在刚刚落幕的 Ignite 大会上,微软展示了企业视频服务 Microsoft Stream 中的一项新功能——无论你在多么嘈杂的地方录制视频,Microsoft Stream 都能自动过滤背景噪音,让主要语音超清晰地呈现出来。这一技术由微软亚洲研究院与 Microsoft Stream 团队共同研发,研究团队提出了关注相位和谐波的语音增强模型 PHASEN,通过双流结构让降噪效果大幅超过此前方法。该论文已被 AAAI 2020 接收。

摘要

我们提出了关注相位和谐波的语音增强模型 PHASEN (Phase-and-Harmonics-Aware Speech Enhancement Network),主要的贡献在于两点:

1. 考虑到相位预测对于语音增强的重要性,我们提出了双流模型结构,分别处理相位和强度信息,并设计了双向信息交互通道。实验证实双流之间的信息交互对相位估计至关重要。

2. 我们提出了频域变换模块 FTB (Frequency Transformation Block),用于在深度神经网络结构中高效整合全局频域相关性,尤其是谐波相关性。通过对于 FTB 参数的可视化,我们可以发现 FTB 自发地学到了谐波相关性。

以上两点使得我们的模型能够同时意识到相位信息以及谐波相关性,从而在 AVSpeech+Audioset 数据集上获得 1.76dB 的 SDR 提升,超过了其他模型在该数据集上的表现,并且在 Voice Bank + DEMAND 数据集中,四个指标均大幅超过之前的方法,一个指标与之前方法持平。

下文中我们将详细介绍问题提出的背景、实现细节以及实验结果。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值