whisper-large-v3部署详细步骤，包括cpu和gpu方式，跟着做一次成功

最新推荐文章于 2025-11-07 01:46:49 发布

原创

最新推荐文章于 2025-11-07 01:46:49 发布 · 1.1k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#whisper #语音识别 #ffmpeg

部署背景

whisper就是一个语音识别的项目，具体细节自行百度了解即可。我这次部署的主要目的是简单测试粤语歌曲的歌词识别效果，之后再抽空做二次开发。讲实话，这些ai模型项目的部署文档大部分就是一坨屎，依赖模块只给出几个，其他模块要在运行代码时出错再一个个修复安装。更痛苦的是，有些是依赖于特定版本模块的，安装错了版本直接各种神奇报错，要一个个版本去试，或者到相应的github issues上面看看。

这里我直接把自己跑通代码时用到的具体依赖模块和对应版本贴出来，避免大家继续做填坑这种无意义的体力劳动。

Demo代码

测试代码如下(主要改篇自这里给出的demo：whisper-large-v3 · 模型库)，将该代码保存为test.py

import torch
from modelscope import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
from datetime import datetime

start_time = datetime.now()

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

# device = 'cpu'
# torch_dtype = torch.float32


model_id = "AI-ModelScope/whisper-large-v3"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    dtype=torch_dtype,
    device=device,

)

result = pipe("test_3.mp3", generate_kwargs={"language": "cantonese"})


# dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
# sample = dataset[0]["audio"]

# result = pipe(sample)
print(result["text"])

end_time = datetime.now()
print(f'start time: {start_time}, end time: {end_time}, elapsed time: {end_time - start_time}')

上述代码中的test_3.mp3是一首粤语歌曲中片段(叶倩文的祝福)，generate_kwargs中的cantonese指定为粤语识别。