利用faster_whisper模型实现视频/音频多语言语音识别

安装和设置

使用前提

本机为Linxu系统,以下命令为Linux命令行
首先确保NVIDIA驱动,CUDA以及cuDNN全部安装完成

检查驱动版本:

nvidia-smi

检查CUDA版本:

nvcc --version

检查cuDNN:

dpkg -l | grep cudnn

模型安装

示例使用Systran/faster-whisper-large-v3模型,直接下载整个文件夹即可

安装必要依赖

pip install faster-whisper

应用示例

from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size_or_path="替换为你的模型文件夹路径", device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("视频或者音频路径", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值