AI视野·今日CS.Sound 声学论文速览
Mon, 9 Oct 2023
Totally 13 papers
👉上期速览✈更多精彩请移步主页
Interesting:
📚MBTFNet,用于歌声质量增强的多带宽时频神经网络 (from 西工大 Audio, Speech and Language Processing Group (ASLP@NPU),)
Daily Sound Papers
MBTFNet: Multi-Band Temporal-Frequency Neural Network For Singing Voice Enhancement Authors Weiming Xu, Zhouxuan Chen, Zhili Tan, Shubo Lv, Runduo Han, Wenjiang Zhou, Weifeng Zhao, Lei Xie 典型的神经语音增强SE方法主要处理语音和噪声混合,这对于歌声增强场景来说并不是最佳的。音乐源分离MSS模型平等地对待人声和各种伴奏成分,与仅考虑人声增强的模型相比,这可能会降低性能。在本文中,我们提出了一种新颖的多频带时频神经网络 MBTFNet 用于歌声增强,特别是从歌声录音中去除背景音乐、噪音甚至背景人声。 MBTFNet 结合了带间和带内建模,以更好地处理全带信号。引入双路径建模来扩展模型的感受野。我们提出了基于信噪比 SNR 估计的隐式个性化增强 IPE 阶段,进一步提高了 MBTFNet 的性能。 |
U-Style: Cascading U-nets with Multi-level Speaker and Style Modeling for Zero-Shot Voice Cloning Authors Tao Li, Zhichao Wang, Xinfa Zhu, Jian Cong, Qiao Tian, Yuping Wang, Lei Xie 零样本说话人克隆的目的是在仅给出当前说话人的单个语音参考的情况下,为 TTS 系统构建过程 |