近年来,人工智能(AI)的进步极大地改变了人类与机器的互动方式,例如GPT-4o和Gemin-1.5等。这种转变在语音处理领域尤为明显,其中高精度的语音识别、情绪识别和语音生成等能力为更直观、更类人的交互铺平了道路。阿里开源大模型FunAudioLLM,一个创新的框架,旨在促进人类与大型语言模型(LLMs)之间的自然语音交互。FunAudioLLM的核心是两个开创性的模型:用于语音理解的SenseVoice和用于语音生成的CosyVoice。
1 FunAudioLLM 模型
FunAudioLLM 模型家族包含两个核心模型:SenseVoice 和 CosyVoice,分别负责语音理解和语音生成。
链接:https://github.com/FunAudioLLM
1.1 SenseVoice:语音理解模型
SenseVoice 是一个功能强大的语音理解模型,支持多种语音处理任务:
- 自动语音识别 (ASR): 将语音转换为文本。
- 语言识别 (LID): 识别语音所属的语言。
- 语音情绪识别 (SER): 识别说话人的情绪。
- 音频事件检测 (AED): 识别语音中的特定事件,例如音乐、掌声、笑声等。
1.1.1 SenseVoice 模型特点
- 多语言支持:SenseVoice 支持多种语言的语音识别,包括 SenseVoice-Small 支持的 5 种语言和 SenseVoice-Large 支持的 50 多种语言。
- 低延迟:SenseVoice-Small 具有极低的推理延迟,比 Whisper-small 快 5 倍以上,比 Whisper-large 快 15 倍以上,适用于实时语音交互应用。
- 高精度:SenseVoice-Large 支持超过 50 种语言的语音识别,并具有高精度识别能力,适用于需要高精度识别的应用。
- 丰富的语音理解功能:SenseVoice 还可以进行情绪识别和音频事件检测,为更复杂的语音交互应用提供支持。
1.1.2 SenseVoice 模型架构
SenseVoice 包含两个版本,分别针对不同的需求: