【AI视野·今日Sound 声学论文速览第二十一期】Mon, 9 Oct 2023

hitrjj

已于 2023-10-11 10:26:28 修改

阅读量311

点赞数

分类专栏： Sound audio Papers 文章标签：神经语音增强语音合成语音克隆语音疾病检测音频事件检测语音合成扩散模型音视频扩散模型

于 2023-10-11 10:23:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014636245/article/details/133762172

版权

AI视野·今日CS.Sound 声学论文速览
Mon, 9 Oct 2023
Totally 13 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

📚MBTFNet,用于歌声质量增强的多带宽时频神经网络 (from 西工大 Audio, Speech and Language Processing Group (ASLP@NPU),)
在这里插入图片描述

Daily Sound Papers

MBTFNet: Multi-Band Temporal-Frequency Neural Network For Singing Voice Enhancement
Authors Weiming Xu, Zhouxuan Chen, Zhili Tan, Shubo Lv, Runduo Han, Wenjiang Zhou, Weifeng Zhao, Lei Xie
典型的神经语音增强SE方法主要处理语音和噪声混合，这对于歌声增强场景来说并不是最佳的。音乐源分离MSS模型平等地对待人声和各种伴奏成分，与仅考虑人声增强的模型相比，这可能会降低性能。在本文中，我们提出了一种新颖的多频带时频神经网络 MBTFNet 用于歌声增强，特别是从歌声录音中去除背景音乐、噪音甚至背景人声。 MBTFNet 结合了带间和带内建模，以更好地处理全带信号。引入双路径建模来扩展模型的感受野。我们提出了基于信噪比 SNR 估计的隐式个性化增强 IPE 阶段，进一步提高了 MBTFNet 的性能。

U-Style: Cascading U-nets with Multi-level Speaker and Style Modeling for Zero-Shot Voice Cloning
Authors Tao Li, Zhichao Wang, Xinfa Zhu, Jian Cong, Qiao Tian, Yuping Wang, Lei Xie
零样本说话人克隆的目的是在仅给出当前说话人的单个语音参考的情况下，为 TTS 系统构建过程

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。