【AI视野·今日Sound 声学论文速览 第二十一期】Mon, 9 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Mon, 9 Oct 2023
Totally 13 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述


Interesting:

📚MBTFNet,用于歌声质量增强的多带宽时频神经网络 (from 西工大 Audio, Speech and Language Processing Group (ASLP@NPU),)
在这里插入图片描述
在这里插入图片描述



Daily Sound Papers

MBTFNet: Multi-Band Temporal-Frequency Neural Network For Singing Voice Enhancement
Authors Weiming Xu, Zhouxuan Chen, Zhili Tan, Shubo Lv, Runduo Han, Wenjiang Zhou, Weifeng Zhao, Lei Xie
典型的神经语音增强SE方法主要处理语音和噪声混合,这对于歌声增强场景来说并不是最佳的。音乐源分离MSS模型平等地对待人声和各种伴奏成分,与仅考虑人声增强的模型相比,这可能会降低性能。在本文中,我们提出了一种新颖的多频带时频神经网络 MBTFNet 用于歌声增强,特别是从歌声录音中去除背景音乐、噪音甚至背景人声。 MBTFNet 结合了带间和带内建模,以更好地处理全带信号。引入双路径建模来扩展模型的感受野。我们提出了基于信噪比 SNR 估计的隐式个性化增强 IPE 阶段,进一步提高了 MBTFNet 的性能。

U-Style: Cascading U-nets with Multi-level Speaker and Style Modeling for Zero-Shot Voice Cloning
Authors Tao Li, Zhichao Wang, Xinfa Zhu, Jian Cong, Qiao Tian, Yuping Wang, Lei Xie
零样本说话人克隆的目的是在仅给出当前说话人的单个语音参考的情况下,为 TTS 系统构建过程
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值