大模型之三十一-音乐分离模型
因为TTS模型训练还有几个结果没出,本篇先介绍一下音乐分离模型吧。其实可能你也猜到了,一部分TTS的数据是网上爬来的,这种音频可能会有背景音之类的,这里需要将乐器类的伴奏去掉。所以就此介绍一下本篇文章吧。
在选择和使用音乐源分离工具时,没有“一劳永逸”的最佳方案,因为每首歌曲的录制和混音方式都有所不同。因此,尝试和比较不同的模型和设置,根据具体情况调整策略,是达到最佳分离效果的关键。
因为本篇集中在对人声的提取,所以重点关注于vocal的性能。
当前音乐多轨分离比较流行的架构是Demucs、MDX-Net、MDXC以及VR Arch这几种,当前UVR5提供了UI界面进行分离的方法。本篇测试以audio-separator为例进行的。UVR5详细介绍文档
Demucs
“Demucs” 来自meta