Vosk 项目
Vosk 是一个开源的自动语音识别(ASR)工具包,它基于 Kaldi 语音识别框架,并为其提供了一个易于使用的接口。Vosk 允许开发者在多种编程语言(如 Python、Java、C++、C# 等)中快速实现语音识别功能,而无需深入了解复杂的语音识别算法和框架。此外,Vosk 还提供了多种语言的预训练模型,包括英语、中文、法语、西班牙语等,使得开发者可以轻松地为他们的应用程序添加多语言支持。
模型下载连接:
https://huggingface.co/rhasspy/vosk-models/tree/main
离线语音识别api:
Vosk 是一个离线开源语音识别工具包。它支持 20 多种语言和方言的语音识别 - 英语、印度英语、德语、法语、西班牙语、葡萄牙语、中文、俄语、土耳其语、越南语、意大利语、荷兰语、加泰罗尼亚语、阿拉伯语、希腊语、波斯语、菲律宾语、乌克兰语、哈萨克语、瑞典语、日语、世界语、印地语、捷克语、波兰语。未来还会有更多。
Vosk models are small (50 Mb) but provide continuous large vocabulary transcription, zero-latency response with streaming API, reconfigurable vocabulary and speaker identification.
Vosk 模型很小 (50 Mb),但提供连续的大词汇转录、带流 API 的零延迟响应、可重新配置的词汇和说话人识别。
Speech recognition bindings implemented for various programming languages like Python, Java, Node.JS, C#, C++, Rust, Go and others.
为各种编程语言(如 Python、Java、Node.JS、C#、C++、Rust、Go 等)实现的语音识别绑定。
Vosk supplies speech recognition for chatbots, smart home appliances, virtual assistants. It can also create subtitles for movies, transcription for lectures and interviews.
Vosk 为聊天机器人、智能家电、虚拟助理提供语音识别。它还可以为电影创建字幕、讲座和采访的转录。
Vosk scales from small devices like Raspberry Pi or Android smartphone to big clusters.
Vosk 可从 Raspberry Pi 或 Android 智能手机等小型设备扩展到大型集群。