阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍

SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测
多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。
富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。
支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
高效推理: SenseVoice-Small 模型采用非自回归端到端框架,推理延迟极低,10s 音频推理仅耗时 70ms,15 倍优于 Whisper-Large。
微调定制: 具备便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。
服务部署: 具有完整的服务部署链路,支持多并发请求,支持客户端语言有,python、c++、html、java 与 c# 等。

github地址:
https://github.com/FunAudioLLM/SenseVoice/blob/main/README_zh.md

本文将使用Anaconda虚拟环境启动项目。

Anaconda介绍

conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖,并能够在不同的环境之间切换。
Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等。

下载地址:https://www.anaconda.com/download-success
没有注册账号的可以使用任一邮箱注册即可,流程简便不在此赘述。
下载如下图安装包即可,下载后安装时间会有点长。
在这里插入图片描述

在这里插入图片描述
安装后进行命令行检查:打开终端,输入conda --version或which conda命令,如果系统返回Conda的版本信息或路径,则表示Conda已安装。

Conda部署SenseVoice

克隆仓库
git clone https://github.com/FunAudioLLM/SenseVoice.git
cd SenseVoice

在这里插入图片描述

使用conda创建一个虚拟环境
conda create -n sensevoice python=3.10 

在这里插入图片描述

进入新的虚拟环境并安装项目依赖
conda activate sensevoice
pip install -r requirements.txt

在这里插入图片描述

安装好依赖后启动项目

python webui.py

在控制台可以看到输入如下日志即为启动成功。
在这里插入图片描述
打开日志中的地址即可进入web页面,可以进行上传音频文件,点击下方的start按钮即可开始转义。
在这里插入图片描述

开放访问及端口修改

该项目若不修改ip及端口,则只能在本机测试,若使用0.0.0.0的ip,则可以使用内网ip进行访问。
编辑webui.py文件,增加launch方法传参重启即可。
在这里插入图片描述
在这里插入图片描述
通过内网ip访问成功
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值