OpenAI 开源的免费 AI 语音转文字工具 - Whisper,一步一步本地部署运行

这篇文章介绍了OpenAI开发的通用语音识别模型Whisper,可用于多种场景如会议记录和智能助手。详细讲解了在Windows11上安装ffmpeg、Rust并配置Python环境,以及如何在命令行和Python代码中运行Whisper进行语音转文字的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Whisper 是 OpenAI 研发的一个通用的语音识别模型,可以把语音转为文本。它在大量多样化的音频数据集上进行训练,同时还是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。

一、使用场景

语音 => 文字 是一个非常实用的功能,例如:

  • 会议、讲座、法庭、医疗等等场景的记录

  • 口述笔记,方便需要频繁记录思路、灵感的人,更快地记录想法

  • 智能助手,例如智能音箱、导航等

  • 文案提取,看到好的视频,可以把视频中的话转为文本文案

ChatGPT 的手机 APP 可以和我们语音对话聊天,就是使用 Whisper 把我们的语音转为的文本。

所以,Whisper 的强大能力不用多说。

现在市面上语音转文字的产品很多都是收费的,例如讯飞语记等等。

Whisper 是开源免费的,而且效果极佳,如果能在自己的电脑中运行,岂不是美事。

下面就以Windows11为例,介绍一下它的安装运行流程。

二、安装步骤

1)安装 ffmpeg

下载地址:

ffmpeg.org/download.html

安装后,打开cmd命令行,确定可以执行 ffmpeg 命令:

ffmpeg -version

如果无法执行,手动配置一下环境变量PATH。

2)安装 rust

下载地址:

rust-lang.org/tools/install

同样的,安装后需要确定命令行可以执行,测试命令:

rustc --version

如果无法执行,手动配置一下环境变量PATH。

rust 的默认安装位置是 ~/.cargo/bin

3)安装 Whisper

配置python虚拟环境,因为 Whisper 需要特定版本的 python。

conda create --name whisper_env python=3.9.18
activate whisper_env

安装依赖库:

pip install setuptools-rust
pip install -U openai-whisper

三、运行

命令行运行

whisper Haul.mp3 --model medium

其中 “Haul.mp3” 是我测试用的音频文件。

“--model medium” 是指定使用 medium 版本的模型(Whisper 有多种模型:tiny、base、small、medium、large,模型大小依次变大)。

第一次运行时,会先下载指定的模型,需要耐心等待一会儿。

模型下载之后,就会开始执行语音识别,输出识别结果。

并且会自动写入文件。

Python代码中运行

import whisper

# 加载模型
model = whisper.load_model("medium")

# 加载音频文件
audio = whisper.load_audio("Haul.mp3")
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)

怎么样,感觉不错吧,有兴趣的话,快试试吧。

项目地址:

github.com/openai/whisper

#AI 人工智能,#OpenAI,#whisper, #ChatGPT,#语音转文字,#gpt890

信息来源 gpt890.com/article/34

### 回答1: Whisper 是 Ethereum 的一种存储模块,可以用来在区块链上发送点对点的消息。它可以在本地部署在 Geth 上,你需要先安装 Geth。 安装完 Geth 之后,你需要在启动 Geth 时使用 `--shh` 参数来启用 Whisper。 示例: ``` geth --shh ``` 你还可以指定 Whisper 的相关配置,如使用的端口等。 示例: ``` geth --shh --shh.port "30311" ``` 在 Geth 启动后,你就可以通过 Geth 控制台来使用 Whisper。如需使用 whisper API 你需要在合约上或通过web3 provider 调用。 有关 Whisper 部署和使用的更多信息,可以参考官方文档: https://github.com/ethereum/wiki/wiki/Whisper ### 回答2: "Whisper"是一个信息传输和存储协议,可以用于在去中心化网络中进行点对点通信。本地部署指的是将这个协议部署本地环境中,而不是在云端平台或任何其他远程服务器上运行。 将Whisper协议本地部署的优势在于: 1. 隐私和安全:由于信息传输和存储发生在本地环境中,用户更有信心和控制自己的数据。本地部署可以减少第三方获取用户通信内容和元数据的风险。 2. 性能和延迟:由于Whisper协议本地运行,它不需要经过远程服务器的中和处理,从而减少了通信的延迟。这对于需要实时交流的应用非常重要。 3. 定制和灵活性:本地部署意味着可以根据特定需求进行自定义配置和调整。这样,用户可以根据自己的偏好和需求对Whisper进行更灵活的配置。 然而,Whisper本地部署也存在一些挑战和限制: 1. 需要自行管理和维护:本地部署意味着需要用户自行负责Whisper协议的安装、配置和维护。这可能需要一些技术知识和资源来确保系统的正常运行2. 可能存在硬件要求:有些本地部署可能需要特定的硬件设备或网络设置来确保Whisper的顺利运行。这可能限制了某些用户或组织的选择。 总体而言,Whisper本地部署为需要更大控制权和定制能力的用户提供了一个可选方案。通过本地部署,用户可以更好地保护隐私、提高性能,并根据自己的需求进行灵活配置。然而,也需要考虑到管理和维护的挑战,以及可能存在的硬件限制。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值