vosk 语音驱动模型

最新推荐文章于 2024-09-18 17:21:54 发布

子燕若水

最新推荐文章于 2024-09-18 17:21:54 发布

阅读量1.2k

点赞数 4

分类专栏：语音驱动 UE5 文章标签： nm

本文链接：https://blog.csdn.net/u010087338/article/details/138434696

版权

UE5 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

语音驱动

2 篇文章 0 订阅

订阅专栏

Vosk是一个基于Kaldi的开源工具包，支持多种编程语言集成，提供离线语音识别功能和多种语言模型。适用于聊天机器人、智能家居等应用，且具有轻量级、高性能和可扩展性。

摘要由CSDN通过智能技术生成

Vosk 项目

Vosk 是一个开源的自动语音识别（ASR）工具包，它基于 Kaldi 语音识别框架，并为其提供了一个易于使用的接口。Vosk 允许开发者在多种编程语言（如 Python、Java、C++、C# 等）中快速实现语音识别功能，而无需深入了解复杂的语音识别算法和框架。此外，Vosk 还提供了多种语言的预训练模型，包括英语、中文、法语、西班牙语等，使得开发者可以轻松地为他们的应用程序添加多语言支持。

模型下载连接：

VOSK Models

https://huggingface.co/rhasspy/vosk-models/tree/main

离线语音识别api：

GitHub - alphacep/vosk-api: Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node

Vosk 是一个离线开源语音识别工具包。它支持 20 多种语言和方言的语音识别 - 英语、印度英语、德语、法语、西班牙语、葡萄牙语、中文、俄语、土耳其语、越南语、意大利语、荷兰语、加泰罗尼亚语、阿拉伯语、希腊语、波斯语、菲律宾语、乌克兰语、哈萨克语、瑞典语、日语、世界语、印地语、捷克语、波兰语。未来还会有更多。

Vosk models are small (50 Mb) but provide continuous large vocabulary transcription, zero-latency response with streaming API, reconfigurable vocabulary and speaker identification.
Vosk 模型很小 (50 Mb)，但提供连续的大词汇转录、带流 API 的零延迟响应、可重新配置的词汇和说话人识别。

Speech recognition bindings implemented for various programming languages like Python, Java, Node.JS, C#, C++, Rust, Go and others.
为各种编程语言（如 Python、Java、Node.JS、C#、C++、Rust、Go 等）实现的语音识别绑定。

Vosk supplies speech recognition for chatbots, smart home appliances, virtual assistants. It can also create subtitles for movies, transcription for lectures and interviews.
Vosk 为聊天机器人、智能家电、虚拟助理提供语音识别。它还可以为电影创建字幕、讲座和采访的转录。

Vosk scales from small devices like Raspberry Pi or Android smartphone to big clusters.
Vosk 可从 Raspberry Pi 或 Android 智能手机等小型设备扩展到大型集群。