python库——whisper：实现音频转换成文字功能

最新推荐文章于 2025-04-24 17:13:31 发布

豆本-豆豆奶

最新推荐文章于 2025-04-24 17:13:31 发布

阅读量2.9k

点赞数 18

分类专栏： Python教程零基础教程 Python 文章标签： python 编程语言开发语言 whisper

本文链接：https://blog.csdn.net/2301_78095812/article/details/145186482

版权

Python 同时被 3 个专栏收录

158 篇文章

订阅专栏

Python教程

156 篇文章

订阅专栏

零基础教程

153 篇文章

订阅专栏

导言

在听完一些专业讲座和较难的课程后，我们经常会后悔在听课时错过了很多重要的细节；或者在进行一些市场调查后，我们希望能快速将收集到的采访录音转换为文字，这时如果有一种轻松实现语音转文字的方法，会大大减少我们的工作量。

Whisper是OpenAI在2022年9月开源的音频转文本的模型，它的转写精确度非常高。Whisper的好处是开源免费、支持多语种(包括中文)，有不同模型可供选择，最终的效果比市面上很多音频转文字的效果都要好。

那么，就让我们进入今天的正题----该怎么使用whisper实现音频转换成文字。

whisper简介

在使用之前，我们先了解一下whisper。Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。

Whisper目前有5个模型，随着参数的变多，转文字的理解性和准确性会提高，但相应速度会变慢：

准备工作--系统环境

Whisper的安装不是简简单单一句命令pip install whisper就完事，它需要一些准备工作。比如ffmpeg、pytorch等。另外，Python的版本建议3.8或3.9。

1、下载ffmpeg并添加环境变量

登陆网址https://github.com/BtbN/FFmpeg-builds/releases下载后，将ffmpeg.exe所在文件夹路径在系统环境变量设置中添加到变量Path中。

2、下载git并添加环境变量

登陆网址registry.npmmirror.com/binary.html，下载git-for-windows，选择最新版本，安装完毕后，在cmd中输入git检查是否加入到系统环境。

3、安装pytorch

登录pytorch.org，选择版本后下载安装（在cmd中操作）。

whisper的安装以上步骤都完成后。按照官方文档，先运行

pip install git+https://github.com/openai/whisper.git

然后再运行

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

完成whisper的安装。

whisper 是一个由 OpenAI 开发的开源库，用于将音频转换为文字（语音识别）。虽然 whisper 格外引人注目，但需要注意的是，它并非 Python 标准库的一部分，因此你需要通过特定的步骤来安装和使用它。

使用 Whisper 将音频转换为文字

以下是一个简单的示例代码，展示如何使用 Whisper 将音频文件转换为文字：

import whisper
import torch

# 加载 Whisper 模型
model_path = 'path/to/your/whisper-model.pt'  # 替换为你下载的模型文件路径
model = whisper.load_model(model_path)

# 加载音频文件
audio_path = 'path/to/your/audio-file.wav'  # 替换为你的音频文件路径

# 使用 Whisper 模型进行语音识别
results = whisper.transcribe(model, audio_path)

# 打印结果
for result in results:
    print(result['transcript'])

运行结果