中国版 Whisper 来了,5分钟带你部署体验
原创 猴哥 猴哥的AI知识库 2024年07月23日 11:29 江苏
猴哥的第 46 期分享,欢迎追看
前段时间,带着大家捏了一个对话机器人:手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
其中语音识别(ASR)方案,采用的是阿里开源的 FunASR,这刚不久,阿里又开源了一个更强的音频基础模型,该模型具有如下能力:
-
语音识别(ASR)
-
语种识别(LID)
-
语音情感识别(SER)
-
声学事件分类(AEC)
-
声学事件检测(AED)
传送门:https://github.com/FunAudioLLM/SenseVoice
今天就带着大家体验一番~
0. 项目简介
模型结构如下图所示:
模型亮点:
-
多语言语音识别:经过超过40万小时的数据训练,支持50多种语言,其识别性能超越了Whisper模型。
-
丰富的转录能力:具备出色的情感识别能力,在测试数据上超越了当前最佳模型。提供声音事件检测能力,支持检测各种常见的人机交互事件,如背景音乐、掌声、笑声、哭泣、咳嗽和打喷嚏。
-
高效推理:SenseVoice-Small模型采用非自回归的端到端框架,具有极低的推理延迟。处理10秒音频仅需70毫秒,比Whisper-Large快15倍。
-
便捷的微调:提供便捷的微调脚本和策略,使用户能够根据业务场景轻松解决长尾样本问题。
1. 在线体验
在线体验地址:https://www.modelscope.cn/studios/iic/SenseVoice