SenseVoice是什么
SenseVoice 是具有音频理解能力的音频基础模型,包括语音识别(ASR)、语种识别(LID)、语音情感识别(SER)和声学事件分类(AEC)或声学事件检测(AED)。本项目提供 SenseVoice 模型的介绍以及在多个任务测试集上的 benchmark,以及体验模型所需的环境安装的与推理方式。
对比目前主流的FastWhisper模型,在small模型上,SenseVoice额外提供了情感和事件,况且情感的识别率比一些开源的语音情感分类准确率高(虽然我觉得还是差点意思)。
况且,Se(后简称同)的识别速度比Fa快了很多,短文本(20以下)能做到百毫秒内。
缺点在于,Se的large版本是没有开源的,而Fa的三个版本均开源,目前普遍认为large和medium的生产效果差不多,消耗时间是以秒为单位的。看官方给出的表格来说,Se的large和Fa的性能几乎相同。
部署
默认会使用Anaconda或者miniconda虚拟环境
#克隆仓库 git clone https://github.com/FunAudioLLM/SenseVoice.git cd SenseVoice
#创建虚拟环境 conda create -n sensevoice python=3.10 conda activate sensevoice
#在虚拟环境