SenseVoice- 中国版 Whisper 来了，5分钟带你部署体验

强化学习曾小健

已于 2025-01-02 21:25:57 修改

阅读量4.6k

点赞数 25

分类专栏：语音识别ASR 端到端语音大模型文章标签： whisper

于 2024-12-29 22:23:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_37574187/article/details/144811822

版权

中国版 Whisper 来了，5分钟带你部署体验

原创猴哥猴哥的AI知识库 2024年07月23日 11:29 江苏

猴哥的第 46 期分享，欢迎追看

前段时间，带着大家捏了一个对话机器人：手把手带你搭建一个语音对话机器人，5分钟定制个人AI小助手（新手入门篇）

其中语音识别（ASR）方案，采用的是阿里开源的 FunASR，这刚不久，阿里又开源了一个更强的音频基础模型，该模型具有如下能力：

语音识别（ASR）
语种识别（LID）
语音情感识别（SER）
声学事件分类（AEC）
声学事件检测（AED）

传送门：https://github.com/FunAudioLLM/SenseVoice

今天就带着大家体验一番~

0. 项目简介

模型结构如下图所示：

模型亮点：

多语言语音识别：经过超过40万小时的数据训练，支持50多种语言，其识别性能超越了Whisper模型。
丰富的转录能力：具备出色的情感识别能力，在测试数据上超越了当前最佳模型。提供声音事件检测能力，支持检测各种常见的人机交互事件，如背景音乐、掌声、笑声、哭泣、咳嗽和打喷嚏。
高效推理：SenseVoice-Small模型采用非自回归的端到端框架，具有极低的推理延迟。处理10秒音频仅需70毫秒，比Whisper-Large快15倍。
便捷的微调：提供便捷的微调脚本和策略，使用户能够根据业务场景轻松解决长尾样本问题。

1. 在线体验

在线体验地址：https://www.modelscope.cn/studios/iic/SenseVoice

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

强化学习曾小健 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。