阿里开源语音识别SenseVoiceWindows环境部署

追着太阳的男人

已于 2024-09-09 14:24:22 修改

阅读量1.7k

点赞数 8

文章标签：语音识别人工智能

于 2024-09-09 14:23:53 首次发布

本文链接：https://blog.csdn.net/m0_37885618/article/details/142057039

版权

SenseVoice介绍

SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测
多语言识别： 采用超过 40 万小时数据训练，支持超过 50 种语言，识别效果上优于 Whisper 模型。
富文本识别：具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果。
支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
高效推理： SenseVoice-Small 模型采用非自回归端到端框架，推理延迟极低，10s 音频推理仅耗时 70ms，15 倍优于 Whisper-Large。
微调定制： 具备便捷的微调脚本与策略，方便用户根据业务场景修复长尾样本问题。
服务部署： 具有完整的服务部署链路，支持多并发请求，支持客户端语言有，python、c++、html、java 与 c# 等。

github地址：
https://github.com/FunAudioLLM/SenseVoice/blob/main/README_zh.md

本文将使用Anaconda虚拟环境启动项目。

Anaconda介绍

conda是一个开源的包、环境管理器，可以用于在同一个机器上安装不同版本的软件包及其依赖，并能够在不同的环境之间切换。
Anaconda包括Conda、Python以及一大堆安装好的工具包，比如：numpy、pandas等。

下载地址：https://www.anaconda.com/download-success
没有注册账号的可以使用任一邮箱注册即可，流程简便不在此赘述。
下载如下图安装包即可，下载后安装时间会有点长。
在这里插入图片描述

在这里插入图片描述
安装后进行命令行检查：打开终端，输入conda --version或which conda命令，如果系统返回Conda的版本信息或路径，则表示Conda已安装。

Conda部署SenseVoice

克隆仓库

git clone https://github.com/FunAudioLLM/SenseVoice.git
cd SenseVoice

在这里插入图片描述

使用conda创建一个虚拟环境

conda create -n sensevoice python=3.10

在这里插入图片描述

进入新的虚拟环境并安装项目依赖

conda activate sensevoice
pip install -r requirements.txt

在这里插入图片描述

安装好依赖后启动项目

python webui.py

在控制台可以看到输入如下日志即为启动成功。
在这里插入图片描述
打开日志中的地址即可进入web页面，可以进行上传音频文件，点击下方的start按钮即可开始转义。

开放访问及端口修改

该项目若不修改ip及端口，则只能在本机测试，若使用0.0.0.0的ip，则可以使用内网ip进行访问。
编辑webui.py文件，增加launch方法传参重启即可。
在这里插入图片描述

通过内网ip访问成功