Spleeter工具简单分析

深度学习音乐分离工具Spleeter详解

最新推荐文章于 2025-09-16 00:23:37 发布

原创

最新推荐文章于 2025-09-16 00:23:37 发布 · 1.2w 阅读

70 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #tensorflow

Spleeter是一款基于深度学习的多音轨分离软件，使用Python和TensorFlow编写。本文介绍了Spleeter的PyTorch版本，以及其2stems、4stems和5stems的预训练模型。设计原理基于频域的音轨分离，使用Unet网络结构。训练时以L1距离为损失函数，预测时计算音轨mask进行分离。文章详细讲解了训练和预测的流程，包括数据集处理、模型构建和预测过程。

源码地址:https://github.com/deezer/spleeter

pytorch版本:https://github.com/generalwave/spleeter.pytorch

前言

spleeter是一款基于深度学习的多音轨分离软件。其使用python3.7基于tensorflow1.15版本编写。本文给出了spleeter的pytorch版本，并将官方预训练模型转化为pytorch模型。该版本经验证效果与官方版本一致。
从功能上,目前预训练模型为2stems(分离出人声/伴奏)，4stems(分离出人声/伴奏/鼓/贝斯/其他)，5stems(人声/鼓/贝斯/钢琴/其他)。性能上，按照spleeter的官网解释,4stems在使用GPU加速的情况下可以达到100s长度的音乐1s分离完成。从效果上来看，spleeter的各项指标均优于目前的其他开源模型。笔者测试2stems的分离效果，人声和伴奏的分离结果都还不错，两者都比较干净。
本文将介绍spleeter的设计原理，模型结构以及预测和训练的方法和在阅读代码以及实际使用时笔者的一些理解，如有错误，希望读者批评指正。同时，读者需要注意，本文所介绍的代码级别的内容均基于2stems的模型，以及默认参数设定情况的调用到的代码，其余情况未解释，另外由于spleeter一直在更新，本文行号不一定正确，仅供参考。

设计原理

spleeter基于频域进行音轨分离。其网络结构中，每条音轨对应着一个unet网络结构。2stems对应着两个unet，4stems对应4个unet网络。unet的网络输入为音频幅度谱，输出为某条音轨的幅度谱。训练时损失函数为计算出音轨的幅度谱与标准幅度谱的L1距离。预测时稍有不同,通过多条音轨的幅度谱计算出每条音轨占据输入音频的能量比例，即每条音轨的mask，通过输入音频频谱乘以mask得到各个音轨的输出频谱，计算得到wav。
由于spleeter的训练和预测的方法有些差异，因此，笔者将分别叙述两者。
首先描述训练时的基本原理。如下图1,训练时的一组数据为(音乐,伴奏,人声)，要求三者在时间轴上尽量完全一致.提取三者频谱并计算出幅度谱。将音乐幅度谱分别输入到人声unet和伴奏unet中，得到预测出的人声unet和伴奏unet，分别计算预测结果和标准结果的L1距离并取均值,作为损失函数,其中伴奏unet和人声unet内部参数会随着数据输入不断更新，此处不再赘述。
在这里插入图片描述
预测过程没有标准的人声和伴奏，只有音乐。在于预测出伴奏和人声的幅度谱之后，spleeter将两者分别进行平方,得到人声能量v_eng,和伴奏能量，a_eng,然后使用v_mask = v_eng/(v_eng+a_eng)计算出每个时刻人声在音乐的每个频带上的占比，以及使用a_mask=a_eng/(v_eng+a_eng)计算出伴奏每个时刻在音乐的每个频带上的占比。最后利用输入的音乐频谱分别乘以v_mask和a_mask得到人声和伴奏频谱，使用逆STFT得到人声和伴奏的语音。具体流程如下图:
在这里插入图片描述
此处需要介绍的一个地方为，本文的unet中，并不是存粹的一个unet结构，其中使用unet网络结构，并在最后一层使用sigmoid激活函数，计算出人声或者伴奏的mask系数，此时通过输入幅度谱乘以该系数得到了伴奏或人声的幅度谱。
笔者认为预测的时候直接获取每条音轨的mask系数乘以输入音频的频谱得到对应音轨的频谱。实验过够，从听觉来说效果还是不错的。这样的好处在于训练目标和预测目标一致，其次多条音轨之间互不影响，方便根据业务需求进行裁剪优化.

流程以及代码讲解

训练部分

训练部分在代码上的核心逻辑与上述流程图并不一致。上述流程图描述的是单个音乐的处理过程，由于在训练的时候需要大量的数据。因此，重点在于数据集的处理，其中模型的搭建以及训练过程和所用语言和框架强相关，本文不作为重点，只是简述一下。
本部分将分为两块叙述。第一为使用部分，讲解如何使用spleeter来进行训练。分为训练时需要的命令以及对应参数解析。第二部分为训练时的核心代码讲解。

第一部分,使用篇

python3 -m spleeter train -p configs/2stems/base_config.json -d example

-m: 这是python的写法，表示指定模块，在此处表示使用spleeter模块
-p: 指定配置文件位置,详细内容见附3
-d: 指定数据集位置
此处需要解释的是，该命令表示执行spleeter的训练模型，采用2stems的配置文件，数据集的位置为本项目目录的example。在运行之前，需要在example中准备好数据集，结构无要求。因为在配置文件中会指定训练数据集和测试数据集的索引文件。具体配置文件信息以及索引文件信息参考附3的解释即可。

第二部分,代码篇

本篇将首先解析训练时的代码整体结构，而后重点分析数据集的构建部分。

代码整体结构:

训练代码使用的是tensorflow的estimator的高级api接口。一共分为三部分，分别为构建模型，构建数据集，训练以及预测.
预备知识:
模型构建: tensorflow使用tf.estimator.Estimator来构建estimator，其中model_fn参数需要给定一个函数，包含了对于训练/验证/预测时的构建的模型。三者在model_fn中，通过mode参数来进行区分[mode参数是Estimator自动填充的]。其中训练模型需要包含，损失函数(loss)和优化器.验证模型[用来在测试集合上做验证]需要给出损失函数定义[一般会看测试集上的loss],预测模型则不需要包含损失函数和优化器。
数据处理: 使用tf.estimator.TrainSpec进行训练数据处理，其中input_fn参数需要给出一个函数，并且返回值是(features, labels)的格式,同理，对于验证集合,使用的是tf.estimator.EvalSpec.
模型训练:通过tf.estimator.train_and_evaluate将参数传入即可训练，并且可以在分布式机器上直接训练，无需改动代码
注意1: partial函数[https://wiki.jikexueyuan.com/project/explore-python/Functional/partial.html],在构建数据集的时候用到了。
注意2: 在构建数据集的时候spleeter大量使用了dataset.map函数，其效果与python中的map相近，都是对每一个元素做统一的操作，其中dataset.map函数还支持使用多线程处理。
注意3: 构建数据集的时候用到了dataset.cache()函数，其将数据集缓存到硬盘中，下次使用的时候可以直接调用.
注意4: tensorflow estimator的api训练时，遍历数据集，如果数据集被遍历完，则训练停止，所以数据集处理时要使用repeat进行重复。

训练模型构建综述

代码路线: spleeter/commands/main.py[line 43]->跳转到spleeter/commands/train.py[line 80]

audio_adapter = get_audio_adapter(arguments.audio_adapter)

最低0.47元/天解锁文章

14 条评论

Petrichor_xx 2023.08.11
我在训练的时候，前部分读入音频没有问题，在训练的时候出现损失值为NAN的情况，是什么原因？学习率等也做过修改，没有好转，用的是musdb的部分数据集 [code=python] INFO:spleeter:Audio data loaded successfully INFO:spleeter:Audio data loaded successfully INFO:spleeter:Audio data loaded successfully INFO:spleeter:Audio data loaded successfully ERROR:tensorflow:Model diverged with loss = NaN. Traceback (most recent call last): File "E:\Anaconda\envs\music\lib\runpy.py", line 193, in _run_module_as_main "__main__", mod_spec) File "E:\Anaconda\envs\music\lib\runpy.py", line 85, in _run_code exec(code, run_globals) File "D:\spleeter-master\spleeter\__main__.py", line 276, in <module> entrypoint() File "D:\spleeter-master\spleeter\__main__.py", line 270, in entrypoint spleeter() File "E:\Anaconda\envs\music\lib\site-packages\typer\main.py", line 214, in __call__ return get_command(self)(*args, **kwargs) File "E:\Anaconda\envs\music\lib\site-packages\click\core.py", line 829, in __call__ return self.main(*args, **kwargs) [/code]

m0_67970427 2023.07.28
您好，请问pytorch版本的训练数据集好像是hdf5文件，能给一份吗

NingboReebok 2023.05.30
网页版Spleeter已上线！网址：http://106.14.114.245/spleeter/ 基于大名鼎鼎的开源项目Spleeter，用人工智能技术快速分离歌曲的人声和伴奏。只需通过网页上传歌曲的音频文件并填写电子邮箱即可。一般在2小时内，最晚在24小时内将会收到电子邮件。电子邮件的附件即为分离后人声、伴奏的音频文件。不需要安装各种软件，不需要配置各种环境！

LuiChun 2022.12.24
兄弟，求助一下，调用spleeter，使用docker部署， spleeter是一个把音频中人声和音乐分离项目。目前遇到的问题是找不到文件

久保若阳 2022.10.24
python -m spleeter train -p json/4stems.json -d musdb18wav 报错 FileNotFoundError: [WinError 3] 系统找不到指定的路径。: ''
- 久保若阳回复久保若阳 2022.10.24
  没有任何头绪，网上一点教程和资料都没

weixin_45941705 2022.10.11
大佬，可以出以下你的配置实现过程的教程吗？配置数据集地址那里不是很理解

jianxiao_28 2022.01.07
请问您提到的直接获取每条音轨的mask系数乘以输入音频的频谱得到对应音轨的频谱，这里的直接获取每条音轨的mask系数怎么做呢？意思是不用经过unet吗？不是很明白您提到到的方便根据业务需求进行裁剪优化的方法。可以再解释一下吗？

小志红铜 2021.10.11
您好，请问一下我下载的官方代码没有spleeter/commands呢？

金彦路容 2021.05.16
更详细，更专业！！！中国💪💪💪👍👍👍

懵懂程序媛日常 2021.03.03
我将musdb转化为wav格式后进行evaluation，出现了以下问题，请问该如何解决？ [code=python] spleeter evaluate -p spleeter:2stems --mus_dir ./musdb18wav -o eval_output INFO:spleeter:Starting musdb evaluation (this could be long) ... INFO:spleeter:musdb evaluation done INFO:spleeter:vocals: INFO:spleeter:SDR: nan INFO:spleeter:SAR: nan INFO:spleeter:SIR: nan INFO:spleeter:ISR: nan INFO:spleeter:drums: INFO:spleeter:SDR: nan INFO:spleeter:SAR: nan INFO:spleeter:SIR: nan INFO:spleeter:ISR: nan INFO:spleeter:bass: INFO:spleeter:SDR: nan INFO:spleeter:SAR: nan INFO:spleeter:SIR: nan INFO:spleeter:ISR: nan INFO:spleeter:other: INFO:spleeter:SDR: nan INFO:spleeter:SAR: nan INFO:spleeter:SIR: nan INFO:spleeter:ISR: nan [/code]