AAAI 2020丨从嘈杂视频中提取超清人声，语音增强模型PHASEN已加入微软视频服务

最新推荐文章于 2024-01-12 16:33:45 发布

baidu_huihui

最新推荐文章于 2024-01-12 16:33:45 发布

阅读量692

点赞数

分类专栏： PHASEN tasNet

本文链接：https://blog.csdn.net/baidu_41617231/article/details/107116995

版权

微软在Ignite大会上展示了Microsoft Stream的新特性，使用PHASEN模型从嘈杂视频中提取清晰人声。PHASEN是微软亚洲研究院与Microsoft Stream团队共同研发的语音增强模型，通过双流结构处理相位和强度信息，有效降噪并提升了语音质量，已在AAAI 2020会议上发表。

摘要由CSDN通过智能技术生成

AAAI 2020丨从嘈杂视频中提取超清人声，语音增强模型PHASEN已加入微软视频服务

编者按：在刚刚落幕的 Ignite 大会上，微软展示了企业视频服务 Microsoft Stream 中的一项新功能——无论你在多么嘈杂的地方录制视频，Microsoft Stream 都能自动过滤背景噪音，让主要语音超清晰地呈现出来。这一技术由微软亚洲研究院与 Microsoft Stream 团队共同研发，研究团队提出了关注相位和谐波的语音增强模型 PHASEN，通过双流结构让降噪效果大幅超过此前方法。该论文已被 AAAI 2020 接收。

摘要

我们提出了关注相位和谐波的语音增强模型 PHASEN (Phase-and-Harmonics-Aware Speech Enhancement Network)，主要的贡献在于两点：

1. 考虑到相位预测对于语音增强的重要性，我们提出了双流模型结构，分别处理相位和强度信息，并设计了双向信息交互通道。实验证实双流之间的信息交互对相位估计至关重要。

2. 我们提出了频域变换模块 FTB (Frequency Transformation Block)，用于在深度神经网络结构中高效整合全局频域相关性，尤其是谐波相关性。通过对于 FTB 参数的可视化，我们可以发现 FTB 自发地学到了谐波相关性。

以上两点使得我们的模型能够同时意识到相位信息以及谐波相关性，从而在 AVSpeech+Audioset 数据集上获得 1.76dB 的 SDR 提升，超过了其他模型在该数据集上的表现，并且在 Voice Bank + DEMAND 数据集中，四个指标均大幅超过之前的方法，一个指标与之前方法持平。

下文中我们将详细介绍问题提出的背景、实现细节以及实验结果。

最低0.47元/天解锁文章

baidu_huihui

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
AAAI 2020丨从嘈杂视频中提取超清人声，语音增强模型PHASEN已加入微软视频服务

AAAI 2020丨从嘈杂视频中提取超清人声，语音增强模型PHASEN已加入微软视频服务编者按：在刚刚落幕的 Ignite 大会上，微软展示了企业视频服务 Microsoft Stream 中的一项新功能——无论你在多么嘈杂的地方录制视频，Microsoft Stream 都能自动过滤背景噪音，让主要语音超清晰地呈现出来。这一技术由微软亚洲研究院与 Microsoft Stream 团队共同研发，研究团队提出了关注相位和谐波的语音增强模型 PHASEN，通过双流结构让降噪效果大幅超过此前方法。该论文已被
复制链接

扫一扫