VOSK语音识别API使用教程

最新推荐文章于 2025-04-14 09:17:57 发布

凌洲丰Edwina

最新推荐文章于 2025-04-14 09:17:57 发布

阅读量2.6k

点赞数 8

本文链接：https://blog.csdn.net/gitblog_01169/article/details/141016094

版权

VOSK语音识别API使用教程

项目地址:https://gitcode.com/gh_mirrors/vo/vosk-api

项目介绍

VOSK是一个离线的开源语音识别工具包，支持超过20种语言和方言，包括英语、印度英语、德语、法语、西班牙语、葡萄牙语、中文、俄语、土耳其语、越南语、意大利语、荷兰语、加泰罗尼亚语、阿拉伯语、希腊语、波斯语、菲律宾语、乌克兰语、哈萨克语、瑞典语、日语、世界语、印地语、捷克语、波兰语、乌兹别克语、韩语、布列塔尼语、古吉拉特语、塔吉克语等。VOSK不仅支持轻量级设备如树莓派和Android设备，还支持服务器级应用。每个语言模型仅50MB，但提供了大型服务器模型。VOSK通过流式API提供最佳用户体验，支持多种编程语言如Python、Java、Node.js、C#、C++、Rust、Go等。

项目快速启动

安装VOSK

首先，确保你的系统上安装了Python 3。然后，通过pip安装VOSK：

pip3 install vosk

示例代码

以下是一个简单的Python示例，展示如何使用VOSK进行语音识别：

import os
import wave
from vosk import Model, KaldiRecognizer

# 下载并解压模型
if not os.path.exists("model"):
    print("请下载模型并解压到当前目录")
    exit(1)

wf = wave.open("test.wav", "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
    print("音频文件必须是单声道WAV格式，16位PCM编码")
    exit(1)

model = Model("model")
rec = KaldiRecognizer(model, wf.getframerate())

while True:
    data = wf.readframes(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        print(rec.Result())
    else:
        print(rec.PartialResult())

print(rec.FinalResult())