阶跃星辰开源集语音理解与生成控制一体化模型——Step-Audio

在这里插入图片描述

1.介绍

Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤),方言(如 粤语,四川话),可控制语速及韵律风格,支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点:

  • 1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能,开源千亿参数多模态模型 Step-Audio-Chat。

  • 高效数据生成链路: 基于130B 突破传统 TTS 对人工采集数据的依赖,生成高质量的合成音频数据,并同步开源首个基于大规模合成数据训练,支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B 。

  • 精细语音控制: 支持多种情绪(如生气,高兴,悲伤)、方言(包括粤语、四川话等)和唱歌(包括 RAP、干声哼唱)的精准调控,满足用户对多样化语音生成的需求。

  • 扩展工具调用: 通过 ToolCall 机制和角色扮演增强,进一步提升其在 Agents 和复杂任务中的表现。

2.模型组成

在Step-Audio系统中,音频流采用Linguistic tokenizer(码率16.7Hz,码本大小1024)与Semantice tokenizer(码率25Hz,码本大小4096)并行的双码本编码器方案,双码本在排列上使用了2:3时序交错策略。通过音频语境化持续预训练和任务定向微调强化了130B参数量的基础模型(Step-1),最终构建了强大的跨模态语音理解能力。为了实现实时音频生成,系统采用了混合语音解码器,结合流匹配(flow matching)与神经声码技术。

在这里插入图片描述

2.1 Tokenizer

我们通过token级交错方法实现Linguistic token与Semantic token的有效整合。Linguistic tokenizer的码本大小是1024,码率16.7Hz;而Semantic tokenizer则使用4096的大容量码本来捕捉更精细的声学细节,码率25Hz。鉴于两者的码率差异,我们建立了2:3的时间对齐比例——每两个Linguistic token对应三个Linguistic token形成时序配对。

2.2 语言模型

为了提升Step-Audio有效处理语音信息的能力,并实现精准的语音-文本对齐,我们在Step-1(一个拥有1300亿参数的基于文本的大型语言模型LLM)的基础上进行了音频持续预训练。

2.3 语音解码器

Step-Audio语音解码器主要是将包含语义和声学信息的离散标记信息转换成连续的语音信号。该解码器架构结合了一个30亿参数的语言模型、流匹配模型(flow matching model)和梅尔频谱到波形的声码器(mel-to-wave vocoder)。为优化合成语音的清晰度(intelligibility)和自然度(naturalness),语音解码器采用双码交错训练方法(dual-code interleaving),确保生成过程中语义与声学特征的无缝融合。

2.4 实时推理管线

为了实现实时的语音交互,我们对推理管线进行了一系列优化。其中最核心的是控制模块(Controller),该模块负责管理状态转换、协调响应生成,并确保关键子系统间的无缝协同。这些子系统包括:

  • 语音活动检测(VAD):实时检测用户语音起止

  • 流式音频分词器(Streaming Audio Tokenizer):实时音频流处理

  • Step-Audio语言模型与语音解码器:多模态回复生成

  • 上下文管理器(Context Manager):动态维护对话历史与状态
    在这里插入图片描述

2.5 后训练细节

在后训练阶段,我们针对自动语音识别(ASR)与文本转语音(TTS)任务进行了专项监督微调(Supervised Fine-Tuning, SFT)。对于音频输入-文本输出(Audio Question Text Answer, AQTA)任务,我们采用多样化高质量数据集进行SFT,并采用了基于人类反馈的强化学习(RLHF)以提升响应质量,从而实现对情感表达、语速、方言及韵律的细粒度控制。

在这里插入图片描述

3. 模型下载

3.1 Huggingface

模型链接
Step-Audio-Tokenizer🤗huggingface
Step-Audio-Chat🤗huggingface
Step-Audio-TTS-3B🤗huggingface

3.2 Modelscope

模型链接
Step-Audio-Tokenizermodelscope
Step-Audio-Chatmodelscope
Step-Audio-TTS-3Bmodelscope

4. 模型使用

📜 4.1 要求

下表列出了运行Step-Audio模型(batch size=1)所需的配置要求:

模型Setting
(采样率)
GPU最低显存
Step-Audio-Tokenizer41.6Hz1.5GB
Step-Audio-Chat41.6Hz265GB
Step-Audio-TTS-3B41.6Hz8GB
  • 需要支持CUDA的NVIDIA显卡.
    • 模型在4块显存为80GB的A800系列NVIDIA显卡上进行测试.
    • 推荐: 为确保最佳生成质量,建议使用4块显存为80GB的A800/H800系列NVIDIA显卡.
  • 测试采用的操作系统: Linux

🔧 4.2 依赖项与安装

git clone https://github.com/stepfun-ai/Step-Audio.git
conda create -n stepaudio python=3.10
conda activate stepaudio

cd Step-Audio
pip install -r requirements.txt

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer
git clone https://huggingface.co/stepfun-ai/Step-Audio-Chat
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

下载模型后,where_you_download_dir应包含以下结构:

where_you_download_dir
├── Step-Audio-Tokenizer
├── Step-Audio-Chat
├── Step-Audio-TTS-3B

🚀 4.3 推理脚本

离线推理

支持端到端音频/文本输入与音频/文本输出的推理流程。

python offline_inference.py --model-path where_you_download_dir
语音合成推理

使用默认音色进行语音合成推理或使用新音色进行克隆

python tts_inference.py --model-path where_you_download_dir --output-path where_you_save_audio_dir --synthesis-type use_tts_or_clone

克隆模式需要音色信息字典,格式如下:

{
    "speaker": "speaker id",
    "prompt_text": "content of prompt wav",
    "wav_path": "prompt wav path"
}
启动网页演示

启动本地服务器以进行在线推理。
假设您已配备4块GPU且已完成所有模型的下载。

python app.py --model-path where_you_download_dir

5. 基准

5.1 语音识别

隐层特征建模离散标记建模
Whisper Large-v3Qwen2-AudioMinMoLUCYMoshiGLM-4-voice BaseGLM-4-voice ChatStep-Audio PretrainStep-Audio-Chat
Aishell-15.141.53-2.4-2.46226.470.871.95
Aishell-2 ios4.763.062.69---211.32.913.57
Wenetspeech test-net9.687.726.648.78--146.057.628.75
Wenet test-meeting18.548.47.610.42--140.827.789.52
Librispeech test-clean1.91.61.63.365.72.8275.392.363.11
Librispeech test-other3.653.63.828.05-7.6680.36.328.44
AVG7.284.32----146.744.645.89

5.2 语音合成

5.2.1 与GLM-4-Voice与MinMo在内容一致性(CER/WER)上的性能对比。
Modeltest-zhtest-en
CER (%) ↓WER (%) ↓
GLM-4-Voice2.192.91
MinMo2.482.90
Step-Audio1.532.71
5.2.2 语音合成模型在SEED测试集上的性能结果。
  • StepAudio-TTS-3B-Single 表示采用双码本主干网络与单码本声码器的组合架构。
Modeltest-zhtest-en
CER (%) ↓SS ↑WER (%) ↓SS ↑
FireRedTTS1.510.6303.820.460
MaskGCT2.270.7742.620.774
CosyVoice3.630.7754.290.699
CosyVoice 21.450.8062.570.736
CosyVoice 2-S1.450.8122.380.743
Step-Audio-TTS-3B-Single1.370.8022.520.704
Step-Audio-TTS-3B1.310.7332.310.660
Step-Audio-TTS1.170.732.00.660
5.2.3 双码本重合成与CosyVoice性能对比。
Tokentest-zhtest-en
CER (%) ↓SS ↑WER (%) ↓SS ↑
Groundtruth0.972-2.156-
CosyVoice2.8570.8494.5190.807
Step-Audio-TTS-3B2.1920.7843.5850.742

5.3 语音对话

我们发布全新基准测试StepEval-Audio-360,该数据集包含137个源自真实用户的多轮中文提示,旨在系统性评估生成式语音交互系统在以下维度的表现:语音指令遵循、语音理解、逻辑推理、角色扮演、创作能力、唱歌、语言能力、语音情绪控制、游戏。

5.3.1 StepEval-Audio-360
大语言模型评估指标(GPT-4o)
Comparison of fundamental capabilities of voice chat on the StepEval-Audio-360.
ModelFactuality (% ↑)Relevance (% ↑)Chat Score ↑
GLM4-Voice54.766.43.49
Qwen2-Audio22.626.32.27
Moshi*1.001.49
Step-Audio-Chat66.475.24.11
  • 注意:带有“*”标记的内容仅供参考。
雷达图(人工测评)

在这里插入图片描述

5.3.2 公开测试集
ModelLlama QuestionWeb QuestionsTriviaQA*ComplexBenchHSK-6
GLM4-Voice64.732.239.166.074.0
Moshi62.326.622.8--
Freeze-Omni72.044.753.9--
LUCY59.729.327.0--
MinMo78.955.048.3--
Qwen2-Audio52.027.037.354.0-
Step-Audio-Chat81.075.158.074.086.0
  • 注意:在 TriviaQA 数据集上,带有“*”标记的结果仅供参考。
5.3.3 语音指令遵循
CategoryInstruction FollowingAudio Quality
GLM-4-VoiceStep-AudioGLM-4-VoiceStep-Audio
Languages1.93.82.93.3
Role-playing3.84.23.23.6
Singing / RAP2.12.42.44
Voice Control3.64.43.34.1

6. 在线引擎

Step-Audio 的在线版本可以通过跃问 的应用程序访问,其中还可以找到一些惊喜的示例。

7. 致谢

本项目的部分代码来自:

感谢以上所有开源项目对本项目开源做出的贡献!

8. 协议

### 安装 Step-Audio 的方法 对于特定于 Step-Audio 的安装,在提供的参考资料中并没有直接提及此软件包的具体安装指南。然而,可以推测 Step-Audio 可能是指 WebRTC 音频处理库或者是 ALSA 或 PulseAudio 相关的一个组件,因为这些是在 Linux 平台上常见的音频处理技术。 如果假设 Step-Audio 是指 WebRTC 音频处理库,则可以从源码编译并安装该库: #### 编译和安装 WebRTC 音频处理库 下载 WebRTC 音频处理库的压缩包,并解压到本地目录[^1]: ```bash wget http://freedesktop.org/software/pulseaudio/webrtc-audio-processing/webrtc-audio-processing-0.3.1.tar.xz tar xf webrtc-audio-processing-0.3.1.tar.xz cd webrtc-audio-processing-0.3.1/ ``` 准备构建环境以及执行实际的构建过程: ```bash mkdir build && cd build cmake .. make -j$(nproc) sudo make install ``` 上述命令序列完成了从获取资源到最终安装的过程。需要注意的是,具体的安装路径和其他选项可能依据个人需求有所不同,因此建议查看官方文档来获得最准确的信息。 考虑到另一种可能性即 Step-Audio 为自定义术语或较少见的应用程序,那么应当寻找其官方网站或其他权威来源以确认确切含义及其对应的安装指导说明。 另外,如果是涉及到更底层如 ALSA 设备驱动层面的操作,通常不需要单独安装所谓的 "Step-Audio";相反,这更多是一个抽象的概念或是开发过程中遵循的一系列步骤[^3]。 由于缺乏关于 Step-Audio 明确描述的确切资料,以上解释基于现有信息进行了合理的推断。为了得到更加针对性的帮助,请提供更多的背景信息以便给出更为精确的回答。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值