开源免费软件推荐：搭建本地网络内的语音转文字工程。

最新推荐文章于 2025-03-25 19:00:00 发布

代号灵昱

最新推荐文章于 2025-03-25 19:00:00 发布

阅读量5.5k

点赞数 60

文章标签： whisper

本文链接：https://blog.csdn.net/qq_28768477/article/details/137044802

版权

本文介绍了一款基于fast-whisper的本地语音转文字工具，具有高准确度、多语言支持和无需联网的特点，适合部署在内网，且提供多种模型选择，适合个人和团队使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言：

BUZZ作为语音转文字本地话的初级尝试，已经展现出了其独特魅力。然而，当你遇到Whisper STT时，你会发现它堪称语音转文字领域的巅峰之作。今天，我们隆重推荐一款基于fast-whisper开源模型的本地语音识别转文字工具的网页版。它不仅仅是一个简单的工具，更是一个能够让大家共同参与的互动平台，无论是投放在局域网还是公网都毫无压力。

一、Voice Recognition to Text Too （开发者没给起中文名字）

这款工具能够精准识别视频/音频中的人类声音，并将其转化为文字，支持输出json格式、srt字幕带时间戳格式以及纯文字格式。你可以轻松部署它，替代openai的语音识别接口或百度语音识别等，而其准确率几乎与openai官方api接口持平。

项目地址：https://github.com/jianchang512/stt
项目所需要的模型地址：https://github.com/jianchang512/stt/releases/tag/0.0

测试环境：轻量云2C+4G+8M

注意：这货会把模型塞到内存里，低于2G内存只能跑Base模型。
支持语言：中文、英文、法语、德语、日语、韩语、俄语、西班牙语、泰国语、意大利语、葡萄牙语、越南语、阿拉伯和土耳其语。

二、软件使用办法

使用过程简单便捷，只需部署或下载后双击start.exe，即可自动调用本地浏览器打开本地网页。通过拖拽或点击，你可以轻松选择要识别的音频或视频文件，然后选择发声语言、输出文字格式以及所用模型（已内置base模型）。点击开始识别后，识别结果将以所选格式直接展示在当前网页上。

本次以windos为例

1、打开样子如下（windows会启动一个Dos程序）

2、测试个MP3

点击上传（可以试听），点击立即识别即可（如果有GPU，会更快）。

3、测试结果

①基础模型（Base）会有一定的错误，结果如下(软件和buzz一样的)

②small模型会好一些（需要提前下载解压Models里）如下图所示。

扫描结果如下，显然比base好许多（有概率出现繁体中文）

导出结果如下：（繁体+简体）的随缘结果。

总得来说已经很好了，毕竟——免费不是么？

三、为啥推荐这个？

这玩意更令人惊喜的是，整个过程无需联网，完全本地运行，因此你可以放心地将其部署于内网环境。而fast-whisper开源模型提供了base/small/medium/large-v3等多种选择，内置了base模型。从base到large-v3，识别效果逐步提升，但所需的计算机资源也会相应增加（内存）。你可以根据实际需求自行下载并解压到models目录下，轻松实现模型的替换与升级。

如果说Buzz是基础，那么这个可是神器（有网页版~你甚至可以放到公网上耍耍）。如果你有前端能力，可以在templates目录下看到网页，可以随便改改。然后做个个映射即可。

如果需要修改端口：配置文件如下

通过映射本地端口到公网，可以使外网能够直接访问到界面，实现本地和公网的互通使用。然而，这种映射方式存在一定的安全风险，因此在实际操作中需要谨慎对待。

四、其他问题：

1、关于模型

model: 模型名称，对应模型文件在models目录下的位置，可选值如下：

base：对应于models/models--Systran--faster-whisper-base

small：对应于models/models--Systran--faster-whisper-small

medium：对应于models/models--Systran--faster-whisper-medium

large-v3：对应于models/models--Systran--faster-whisper-large-v3

2、关于AIP接口

接口地址: http://127.0.0.1:9977/api

请求方法: POST

请求实例：

Api python请求示例

import requests

# 请求地址

url = "http://127.0.0.1:9977/api"

# 请求参数

file:音视频文件，

language：语言代码，

model：模型，

response_format:text|json|srt

# 返回 code==0 成功，其他失败，msg==成功为ok，其他失败原因，data=识别后返回文字

files = {"file": open("C:/Users/c1/Videos/2.wav", "rb")}

data={"language":"zh","model":"base","response_format":"json"}

response = requests.request("POST", url, timeout=600, data=data,files=files)

print(response.json())

API curl请求实例

参数注释：
@后是文件如D盘下单简单爱.MP
语言：language 设置为zh中文
服务器ip： 127.0.0.1:9977
输出文件：response.txt

curl -X POST \ -H "Content-Type: multipart/form-data" \ -F "file=@d:\简单爱 - 周杰伦.mp3" \ -F "language=zh" \ -F "model=base" \ -F "response_format=txt" \ http://127.0.0.1:9977/api > response.txt

Windows的Dos环境，直接粘贴