本地部署 Whisper 及 WhisperDesktop

文章介绍了如何在Ubuntu和Windows系统上部署Whisper,一个通用的语音识别模型。首先,创建虚拟环境并安装ffmpeg,然后克隆GitHub仓库安装Whisper及其依赖。对于Ubuntu,还涉及了CUDAToolkit的更新。最后,文章提到了如何使用Whisper进行测试,并提供了Windows下部署WhisperDesktop的步骤,包括下载软件和语音模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 什么是 Whisper

Whisper 是一个通用的语音识别模型。它是在一个大型的不同音频数据集上训练出来的,也是一个多任务模型,可以进行多语言语音识别(multilingual speech recognition)、语音翻译(speech translation)和语言识别(language identification)。

2. Github 地址

https://github.com/openai/whisper

3. 创建虚拟环境

conda create -n whisper python==3.10.6
conda activate whisper 

4. 安装 ffmpeg

sudo apt update && sudo apt install ffmpeg

5. 部署 Whisper

克隆代码库,

git clone https://github.com/openai/whisper.git; cd whisper/

安装依赖,

pip3 install -r requirements.txt
pip3 install -U openai-whisper
pip3 install git+https://github.com/openai/whisper.git 
pip3 install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
pip3 install setuptools-rust

(可选)我使用的是 WSL-Ubuntu 22.04,安装的 CUDA Toolkit 11.8,将 pytorch、torchvision、torchaudio 更新为兼容 CUDA Toolkit 11.8 的版本。

pip3 uninstall pytorch torchvision torchaudio && pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

6. 使用 Whisper

这里我录制了一句中文,测试一下效果,

whisper demo.wav --model medium --language Chinese

输出如下,

在这里插入图片描述

(20230514追加)Windows 本地部署 WhisperDesktop

下载 WhisperDesktop

访问 https://github.com/Const-me/Whisper/releases,下载最新版 WhisperDesktop,

在这里插入图片描述
将下载的文件解压,例如,D:\ProgramGreen\WhisperDesktop 目录下,

插入

下载语音模型

访问 https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main,下载语音模型,

在这里插入图片描述

使用 WhisperDesktop

双击打开 WhisperDesktop.exe,加载刚刚下载的语音模型,

在这里插入图片描述
找一个视频文件测试一下,
在这里插入图片描述
生成文本的一部分截屏如下,
在这里插入图片描述

完结!

<think>好的,用户需要寻找能够在本地进行批量语音转文字的技术或工具。首先,我需要确定用户的具体需求。他们希望本地处理,说明可能对隐私有较高要求,或者不希望依赖网络服务。批量处理意味着需要支持多个文件一次性转换,可能涉及自动化脚本或工具。 接下来,我需要回忆相关的技术和工具。根据之前提供的引用,Whisper是一个开源的语音识别模型,支持本地部署,适合批量处理。用户提到的引用[2]中提到了GitHub上的Whisper项目,这可能是一个关键点。另外,引用[3]提到了一些视频转文字软件,但用户需要本地工具,所以可能需要排除在线服务。 然后,考虑技术实现方面。用户可能需要编程能力,比如使用Python调用Whisper模型,或者使用现成的工具如VOSK、SpeechRecognition库。需要检查这些工具是否支持批量处理和本地运行。例如,Whisper的Python库可以通过脚本遍历文件夹中的音频文件,逐个转写,这符合批量需求。 还要考虑硬件要求,本地运行可能需要较高的计算资源,尤其是GPU加速。如果用户没有GPU,可能需要推荐CPU优化的模型,比如较小的Whisper模型(tiny、base)。 另外,用户可能对易用性有要求。如果有图形界面工具,比如Audacity结合插件,或者FFmpeg配合脚本,可能更适合非技术用户。但根据引用[2],Hugging Face的Transformers库也提供了Pipeline功能,可以简化代码,这可能适合有一定技术背景的用户。 需要验证提到的工具是否真的支持本地批量处理。比如引用[1]中的MemoTrace工具,但根据描述,它似乎是微信聊天备份工具,主要针对微信语音,可能不适用于其他来源的音频文件。所以可能不是最佳推荐。 最后,总结可行的方案:Whisper开源模型、VOSK、SpeechRecognition库,以及可能的商业软件如讯飞听见的离线版本。同时,提供技术实现步骤,比如安装Python库、编写批处理脚本,确保用户能按照步骤操作。</think>以下是关于本地批量语音转文字的技术与工具实现方案: ### 一、开源技术方案 1. **Whisper(OpenAI开源模型)** - 支持本地部署,无需网络连接 - 提供多种模型尺寸(tiny/base/small/medium/large),其中`tiny`模型仅需 1GB 显存 - 支持批量处理脚本: ```python import whisper model = whisper.load_model("base") for audio_file in audio_files: result = model.transcribe(audio_file) # 保存result["text"]到文件 ``` 可通过遍历文件夹实现批量处理[^2] 2. **VOSK API** - 支持离线语音识别 - 提供多语言模型(含中文) - 支持实时流式识别和批量处理 - 提供Python/Java/C#等多种接口 3. **SpeechRecognition库** - Python语音识别库 - 支持CMU Sphinx离线引擎 - 示例代码: ```python import speech_recognition as sr r = sr.Recognizer() for file in audio_files: with sr.AudioFile(file) as source: audio = r.record(source) text = r.recognize_sphinx(audio) ``` ### 二、本地工具推荐 1. **Whisper Desktop(Windows GUI)** - 可视化界面操作 - 支持批量导入音频文件 - 可导出txt/srt格式文本 2. **Audacity(需配合插件)** - 免费开源音频编辑器 - 通过`Analyze > Contrast`配合自定义脚本实现转写 3. **FFmpeg+Whisper组合方案** - 先使用FFmpeg统一转换音频格式 - 再通过Shell脚本批量调用Whisper: ```bash for f in *.wav; do whisper "$f" --model medium --language Chinese done ``` ### 三、性能优化建议 1. 硬件要求: - GPU加速:推荐NVIDIA显卡(CUDA加速) - CPU模式:建议使用`tiny`/`base`模型 2. 批量处理技巧: - 使用多进程处理(Python `multiprocessing`库) - 先统一采样率至16kHz 3. 准确率提升: - 添加领域专业词汇表 - 对含背景噪音的音频先进行降噪处理
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值