SenseVoice部署（Windows环境）+ 简易api二次开发：实现麦克风语音识别

Aou君

已于 2024-08-23 14:36:44 修改

阅读量1w

点赞数 27

分类专栏：拜托-这里在搞研究文章标签： windows python conda fastapi 语音识别

于 2024-08-21 15:37:24 首次发布

本文链接：https://blog.csdn.net/qq_18813685/article/details/141392717

版权

SenseVoice是什么

摘抄自README文档SenseVoice/README_zh.md at main · FunAudioLLM/SenseVoice (github.com)https://github.com/FunAudioLLM/SenseVoice/blob/main/README_zh.md

SenseVoice 是具有音频理解能力的音频基础模型，包括语音识别（ASR）、语种识别（LID）、语音情感识别（SER）和声学事件分类（AEC）或声学事件检测（AED）。本项目提供 SenseVoice 模型的介绍以及在多个任务测试集上的 benchmark，以及体验模型所需的环境安装的与推理方式。

对比目前主流的FastWhisper模型，在small模型上，SenseVoice额外提供了情感和事件，况且情感的识别率比一些开源的语音情感分类准确率高（虽然我觉得还是差点意思）。
况且，Se（后简称同）的识别速度比Fa快了很多，短文本（20以下）能做到百毫秒内。

缺点在于，Se的large版本是没有开源的，而Fa的三个版本均开源，目前普遍认为large和medium的生产效果差不多，消耗时间是以秒为单位的。看官方给出的表格来说，Se的large和Fa的性能几乎相同。

部署

默认会使用Anaconda或者miniconda虚拟环境

#克隆仓库
git clone https://github.com/FunAudioLLM/SenseVoice.git
cd SenseVoice

#创建虚拟环境
conda create -n sensevoice python=3.10 
conda activate sensevoice

#在虚拟环境

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Aou君

关注关注

27
点赞
踩
70

收藏

觉得还不错? 一键收藏
10
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

如何借助开源的语音识别模型搭建自己的语音识别API

博客

03-05

相信大家对`语音验证码`都会很头疼吧，一般遇到这种验证码可能大家就会放弃了，要么就是花钱购买别人的语音识别接口，但是，从今天开始大家就可以搭建自己的语音识别接口了，这里我们直接借助开源的`语音识别模型`，本篇文章使用的模型是阿里的SenseVoice

SenseVoice多语言语音理解模型之最新部署落地经验

m0_71062934的博客

07-15

5991

SenseVoice是一个专注于多语言语音识别、情感辨识和音频事件检测的模型。 SenseVoice经过超过40万小时的数据训练，支持超过50种语言的识别，效果在某些场景下优于Whisper模型。除了基本的语音转文本功能，SenseVoice还具备情感辨识能力，能够分析说话者的情绪状态，这对于构建更加人性化的交互系统非常重要。即使在较小的模型版本SenseVoice-Small中，也能在多数数据集上超越竞争对手，这意味着它在保持高性能的同时，还兼顾了计算资源的使用效率。

10 条评论您还未登录，请先登录后发表或查看评论

sensevoice部署，python调用本地部署的sensevoice的api接口

weixin_43654613的博客

12-10

1998

python调用本地部署的sensevoice的api接口

基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python源码

07-29

【测试环境】 anaconda3+python3.9 torch==2.0.1+cu117 funasr==1.1.4 modelscope==1.16.1 PyAudio ==0.2.14 【视频演示】 https://www.bilibili.com/video/BV1Pb42177Bw/ 【博文地址】 https://blog.csdn.net/FL1623863129/article/details/140764071

本地部署SenseVoice（包括离线设备操作）

最新发布

Arvin627的博客

02-27

1628

下载完成后，自定义路径后安装。在开始菜单中出现Anaconda Prompt说明安装成功。注：安装过程中可自定义安装路径，其他都选择回车或yes。注：安装过程中是否初始化conda环境：可选择yes，将会在默认shell环境脚本（如~/.bashrc）文件末，添加conda init内容。可选择no，可自己配置，在shell环境脚本中添加conda init即可，可参考下面配置环境变量。。

unity3d+讯飞API语音识别听写

09-14

利用unity3d和讯飞开放平台的websocket 接口实现语音识别，经过测试可以在PC，安卓等平台使用。

阿里开源语音识别SenseVoiceWindows环境部署

m0_37885618的博客

09-09

1696

SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别：采用超过 40 万小时数据训练，支持超过 50 种语言，识别效果上优于 Whisper 模型。富文本识别：具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。

本地部署 SenseVoice - 阿里开源语音大模型

engchina的专栏

07-08

4883

本地部署 SenseVoice - 阿里开源语音大模型

手把手教你在Windows上在线部署SenseVoice

hongyinvjianke的博客

12-18

875

下载好后，双击进行安装。（注意：安装位置在D:\ProgramData\anaconda3）出现Anaconda Prompt说明安装成功。打开Anaconda Prompt。创建main.py文件。运行python文件。

本地部署SenceVoice（超简单）

A97139012的博客

01-17

1789

本地部署sencevoice，实现语音转文字

SenseVoice实现语音转文字

Baker的博客

08-01

2051

添加语音后，会显示语音时长，可以试听以及剪辑等操作，确认无误后，点击Start按钮开始转换，如果语音不长的话很快就完成了，我的电脑没有英伟达显卡，三十个字左右的语音只需要2~3秒就完成了。可以部署好SenseVoice和CosyVoice，再对接下大模型就可以实现语音输入和语音回复了。部署完成后打开ip+7860，进入首页，可以看到上面一段介绍，下面的左侧是放入的语音消息，右侧是支持的语音类型。同时，SenseVoice也是支持API调用的，可以在页面的下方看到通过API使用的字，点击可以看到开发手册。

AI超强语音转文本SenseVoice，本地化部署教程！

淘小欣的博客

09-04

2760

SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测采用超过40万小时数据训练，支持超过50种语言，识别效果上优于Whisper模型。富文本识别：具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。模型采用非自回归端到端框架，推理延迟极低，10s音频推理仅耗时70ms，15倍优于Whisper-Large。

SenseVoice 部署记录

arkhyper的博客

12-18

655

最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。

SenseVoice- 中国版 Whisper 来了，5分钟带你部署体验

强化学习曾小健

12-29

4622

模型结构如下图所示：多语言语音识别：经过超过40万小时的数据训练，支持50多种语言，其识别性能超越了Whisper模型。丰富的转录能力：具备出色的情感识别能力，在测试数据上超越了当前最佳模型。提供声音事件检测能力，支持检测各种常见的人机交互事件，如背景音乐、掌声、笑声、哭泣、咳嗽和打喷嚏。高效推理：SenseVoice-Small模型采用非自回归的端到端框架，具有极低的推理延迟。处理10秒音频仅需70毫秒，比Whisper-Large快15倍。便捷的微调：提供便捷的微调脚本和策略。

Windows部署SenseVoice保姆级教程

chilema2的专栏

02-18

1630

Windows 系统部署SenseVoice全过程

SenseVoice 实测，阿里开源语音大模型，识别效果和效率优于 Whisper，居然还能检测掌声、笑声！5分钟带你部署体验

热门推荐

u010522887的专栏

07-23

3万+

阿里开源语音大模型：语音识别效果和性能强于 Whisper，还能检测掌声、笑声、咳嗽等

手把手教你在Windows离线部署SenseVoice

hongyinvjianke的博客

12-18

1458

将上面的3个文件（anaconda安装包、SenseVoice.zip、sensevoice.tar.gz）全部拷贝到离线设备中。（2）将D:\Project下的整个SenseVoice文件夹压缩为SenseVoice.zip。（注意：安装位置在D:\ProgramData\anaconda3）（注意：安装位置在D:\ProgramData\anaconda3）将SenseVoice.zip解压到D:\Project中。（3）将sensevoice虚拟环境中的所有依赖导出。运行python文件。

国内Ubuntu环境Docker部署 SenseVoice

右先生、的博客

01-05

2527

(上述1下载模型设置的本地路径);20行的vad_model参数修改为。本笔记主要记录使用 docker 进行部署的相关文件，文件内容放在最后。部署 SenseVoice。在这里记录一下相关的文件。访问 5306端口，出现以下界面即部署成功。文件夹，并将上述文件放入。愿看到的小伙伴不迷路。文件，并将上述内容写入。项目的根目录下创建一个。项目的根目录下创建一个。执行以下命令分别下载。

ESP32部署SenseVoice

02-10

### ESP32 部署 SenseVoice 使用教程及配置方法 #### 一、准备工作为了在ESP32上成功部署SenseVoice，需准备如下硬件和软件环境： - **硬件需求** - 支持I2S接口的麦克风模块。 - ESP32开发板。 - **软件工具链** - 安装最新版本的Arduino IDE并添加ESP32支持[^2]。 #### 二、安装必要的库文件要在ESP32项目中集成SenseVoice功能，需要下载对应的SDK包以及依赖项。通常情况下，官方会提供详细的文档说明如何获取这些资源。按照官方指南完成相关库的导入工作。 #### 三、初始化音频设备通过I2S总线连接外部麦克风到ESP32，并编写相应的驱动程序来读取来自麦克风的数据流。这部分涉及到具体的电路设计细节，在此不做过多展开[^1]。 ```cpp #include "driver/i2s.h" // I2S configuration parameters #define I2S_NUM I2S_NUM_0 #define I2S_BCK_IO 26 /*!< GPIO number of I2S bit clock signal */ #define I2S_WS_IO 25 /*!< GPIO number of I2S word select signal */ #define I2S_DATA_IN_IO 22 /*!< GPIO number of I2S data input signal */ void setup() { i2s_config_t i2s_config = { .mode = (i2s_mode_t)(I2S_MODE_MASTER | I2S_MODE_RX), ... }; } ``` #### 四、加载SenseVoice模型根据所选的具体语音识别方案，预先训练好的神经网络权重会被固化至Flash存储器内；启动时将其映射入SRAM以便快速访问。对于某些轻量级的应用场景而言，也可以考虑直接在线传输参数给MCU处理[^3]。 #### 五、实现命令词检测逻辑当接收到有效的声音片段后，调用预置API执行特征提取与分类操作，最终返回匹配度最高的关键词作为输出结果。这里可以利用中断机制提高响应速度，确保及时捕捉用户的指令输入。 ```cpp if (sensevoice_recognize(buffer)) { // buffer contains audio samples collected by microphone Serial.println("Keyword detected!"); } ```