【小沐学AI】Python实现语音识别（whisperX）-CSDN博客

本文链接：https://blog.csdn.net/hhy321/article/details/140077803

文章目录

1、简介
- 1.1 whisper
- 1.2 whisperX
2、安装
- 2.1 安装cuda
- 2.2 安装whisperX
结语

1、简介

1.1 whisper

https://arxiv.org/pdf/2212.04356
https://github.com/openai/whisper

Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。
在这里插入图片描述
Transformer 序列到序列模型针对各种语音处理任务进行训练，包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务共同表示为解码器要预测的一系列标记，从而允许单个模型取代传统语音处理管道的许多阶段。多任务训练格式使用一组特殊标记作为任务说明符或分类目标。
在这里插入图片描述

1.2 whisperX

https://github.com/m-bain/whisperX

WhisperX：具有单词级时间戳（和Diarization）的自动语音识别

WhisperX 简介

Whisper 是一个由 OpenAI 开发的通用语音识别模型（ASR），在大量多样化的音频数据集上进行训练，具有惊人的准确性。它同时也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。OpenAI 已经将 Whisper 开源，供社区使用。

WhisperX 是基于 OpenAI 开源项目 Whisper 的一个分支，它是一款功能强大的语音转文本（STT，Speech-to-Text）工具，以其出色的转录能力而闻名，并支持多种语言。更令人兴奋的是，它完全免费。
在这里插入图片描述

为什么选择 WhisperX

Whisper 在大量多样化的音频数据上进行训练。尽管它能够提供高准确度的转录，但相关的时间戳是话语级别而非单词级别，可能存在数秒不准。而且，Whisper 并不原生支持批处理。

WhisperX 提供了一种快速的自动语音识别方法（在使用 large-v2 时可实现 70x 实时速度），具备单词级时间戳和说话者辨识功能。

WhisperX的特点
- 使用 whisper large-v2 进行批处理推断，可实现 70x 实时转录。
- 利用 faster-whisper 作为后端，对于 large-v2 只需小于 8GB 的 GPU 显存。（使用beam_size=5）
- 利用 wav2vec2.0 对齐，实现准确的单词级时间戳。
- 利用来自 pyannote-audio 的说话者辨识，实现多说话者 ASR（带有说话者 ID 标签）。
- VAD 预处理，减少幻听问题，并实现无 WER 降低的批处理。

2、安装

2.1 安装cuda

CUDA是什么：CUDA是NVIDIA推出的一种编程技术。它允许开发者使用C语言来编写能在NVIDIA的图形处理器上运行的代码。通过CUDA，开发者可以将GPU用于通用的并行计算，大大提高了计算效率。
CUDA的一个重要特点是，它允许软件开发者直接使用NVIDIA的GPU来执行某些计算密集型的任务。这是因为GPU内部有许多并行处理单元，可以同时执行许多计算任务，从而大大提高了计算速度。
另外，CUDA还提供了一套完整的开发工具链，包括编译器、调试器和性能分析器，使得开发者可以更方便地开发和优化CUDA程序。

首先使用 cmd 命令行输入 nvidia-smi ，在第一行最右边可以看到CUDA的版本号，我的版本是11.6

nvidia-smi

在这里插入图片描述
https://pytorch.org/get-started/locally/
打开网址选择一个比较靠近的版本。

选择生成命令为：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

在这里插入图片描述
如果网络不好，可以直接到镜像源进行下载安装 https://download.pytorch.org/whl/torch_stable.html
如果你希望使用 PyTorch 稳定版本，建议使用 CUDA 11.8。可以从 https://developer.nvidia.com/cuda-toolkit-archive 下载相应的存档文件。

验证CUDA是否可用，直接继续命令行中输入 python代码:

import torch
ret = torch.cuda.is_available()
print(ret)

在这里插入图片描述
如果输出为True，则代表可以使用GPU显卡了。

import torch
print("Torch version:", torch.__version__)
print("CUDA version:", torch.version.cuda)
print("CUDA available:", torch.cuda.is_available())
if torch.cuda.is_available():
    print("CUDA device:"