Step-Audio是由阶跃星辰团队推出的开源语音交互模型,旨在实现高质量、低延迟的实时语音交互,并支持多语言、方言、情感表达及工具调用等功能。以下是其核心信息总结:
1. 核心功能与特点
-
实时语音交互:支持端到端的实时语音对话,延迟低至800ms,适用于智能硬件、车载系统等场景24。
-
多语言与方言支持:覆盖中文(包括粤语、四川话等方言)、英语、日语等,并支持生成不同情感(如喜悦、悲伤)和风格(如说唱)的语音249。
-
工具调用能力:在语音对话中可调用外部工具(如搜索引擎、知识库),实现功能扩展12。
-
语音克隆与合成:支持音色复刻、语音克隆及音乐合成,用户可通过少量样本克隆特定音色,生成个性化语音内容910。
2. 技术架构与创新
-
双编码本框架:采用语义和声学特征分离编码,语义编码器(16.7Hz)与声学编码器(25Hz)通过时序交错比例(2:3)实现高效对齐,提升语音生成质量24。
-
流式推理优化:通过控制器模块管理状态转换,优化语音活动检测、分词、解码等流程,实现40%的提交率和14:1的压缩比,提升跨模态对齐效率24。
-
强化学习与偏好优化:基于130B参数的Step-1基础模型持续预训练,结合人类反馈强化学习(RLHF),提升对话逻辑和情感表达能力410。
3. 应用场景
-
智能硬件:适用于AI玩具、智能家居设备等,提供自然语音交互能力。
-
汽车领域:与吉利汽车合作,集成至车载系统,支持多模态交互和实时语音导航。
-
在线教育与娱乐:生成有声读物、虚拟教师语音,或为游戏角色赋予动态语音。
-
客服与陪伴:提供高情商对话服务,如跃问App的实时语音通话功能,支持用户情感陪伴10
4. 性能评测与优势
-
自建评估体系:推出StepEval-Audio-360基准测试,涵盖逻辑推理、创作能力、指令控制等个维度,评测显示Step-Audio在多项指标上超越Qwen2-Audio等开源模型。
-
标准测试表现:在HSK-6(汉语水平考试六级)评测中得分86分,领先同类模型。
-
开源与商业化:采用MIT协议开源,允许免费商用和二次开发,显著降低企业接入门槛。
5. 生态与未来发展
-
开源社区贡献:代码和模型权重已在GitHub、Hugging Face和ModelScope平台发布,吸引全球开发者参与优化。
-
行业合作案例:与OPPO、吉利汽车等企业合作,推动语音技术落地智能终端和汽车场景。
-
技术迭代方向:未来计划集成视觉模态,实现更复杂的多模态交互;优化长期记忆机制,提升持续对话能力。
资源与体验
-
模型地址:
-
在线体验:通过“跃问”App可免费试用实时语音功能。
Step-Audio通过技术创新和开源生态,成为语音交互领域的标杆,其多模态扩展和行业应用潜力值得持续关注。