利用faster_whisper模型实现视频/音频多语言语音识别

本文链接：https://blog.csdn.net/qq_63088428/article/details/147526858

安装和设置

使用前提

本机为Linxu系统，以下命令为Linux命令行
首先确保NVIDIA驱动，CUDA以及cuDNN全部安装完成

检查驱动版本：

nvidia-smi

检查CUDA版本：

nvcc --version

检查cuDNN:

dpkg -l | grep cudnn

模型安装

示例使用Systran/faster-whisper-large-v3模型，直接下载整个文件夹即可

安装必要依赖

pip install faster-whisper

应用示例

from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size_or_path="替换为你的模型文件夹路径", device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("视频或者音频路径", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))