SenseVoice- 中国版 Whisper 来了,5分钟带你部署体验

中国版 Whisper 来了,5分钟带你部署体验

原创 猴哥 猴哥的AI知识库 2024年07月23日 11:29 江苏

猴哥的第 46 期分享,欢迎追看

前段时间,带着大家捏了一个对话机器人:手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)

其中语音识别(ASR)方案,采用的是阿里开源的 FunASR,这刚不久,阿里又开源了一个更强的音频基础模型,该模型具有如下能力:

  • 语音识别(ASR)

  • 语种识别(LID)

  • 语音情感识别(SER)

  • 声学事件分类(AEC)

  • 声学事件检测(AED)

传送门:https://github.com/FunAudioLLM/SenseVoice

今天就带着大家体验一番~

0. 项目简介

模型结构如下图所示:

模型亮点:

  • 多语言语音识别:经过超过40万小时的数据训练,支持50多种语言,其识别性能超越了Whisper模型。

  • 丰富的转录能力:具备出色的情感识别能力,在测试数据上超越了当前最佳模型。提供声音事件检测能力,支持检测各种常见的人机交互事件,如背景音乐、掌声、笑声、哭泣、咳嗽和打喷嚏。

  • 高效推理:SenseVoice-Small模型采用非自回归的端到端框架,具有极低的推理延迟。处理10秒音频仅需70毫秒,比Whisper-Large快15倍。

  • 便捷的微调:提供便捷的微调脚本和策略,使用户能够根据业务场景轻松解决长尾样本问题。

1. 在线体验

在线体验地址:https://www.modelscope.cn/studios/iic/SenseVoice

### SenseVoice离线部署API使用指南 #### 一、环境准备 为了成功完成SenseVoice API的离线部署,需先准备好运行环境。这通常涉及到安装特定本的操作系统以及必要的依赖库。确保服务器具备足够的硬件资源来支持语音处理任务[^1]。 #### 二、获取授权文件 联系供应商以获得合法使用的许可证书和密钥信息。这些凭证对于激活服务至关重要,在后续配置过程中需要用到它们来进行身份验证[^2]。 #### 三、下载并解压软件包 从官方渠道下载适用于目标平台的最新SDK压缩包,并将其放置于指定目录下;接着执行命令解开此档案以便进一步操作: ```bash tar -zxvf sensevoice_sdk.tar.gz cd sensevoice_sdk/ ``` #### 四、修改配置参数 编辑`config.json`文件中的各项设置项,如端口号、日志级别等,使之适应实际应用场景需求。特别注意要正确填写之前所提到过的认证资料部分[^3]。 #### 五、启动服务进程 通过脚本方式快速开启后台监听程序,使其能够接收来自客户端发送过来的数据请求: ```bash nohup python3 main.py & ``` 此时应该可以在浏览器地址栏输入http://localhost:8080访问到默认首页界面,证明部署工作已经初步就绪[^4]。 #### 六、测试接口功能 利用Postman或其他类似的工具向刚才搭建好的RESTful Web Service发起调用尝试,传入音频片段作为样本素材,观察返回的结果是否符合预期效果。如果一切正常,则说明整个流程顺利完成[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值