whisper 强大且开源的语音转文字

Whisper是OpenAI的一个强大的语音识别工具,支持CPU和GPU,提供不同大小的模型以适应不同的资源需求。安装可通过pip,且需安装ffmpeg。小型模型在大多数机器上运行良好,适用于一般用途。
摘要由CSDN通过智能技术生成

说起来语音转换文字,openai旗下的whisper很是好用,推理也很快,同时支持cpu和GPU。

GitHub:GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

相关的参数和内存使用如下:

SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speed
tiny39 Mtiny.entiny~1 GB~32x
base74 Mbase.enbase~1 GB~16x
small244 Msmall.ensmall~2 GB~6x
medium769 Mmedium.enmedium~5 GB~2x
large1550 MN/Alarge~10 GB1x

CPU推理会慢一些,一般机器使用small模型即可,该模型内存占用不是很高

1.安装

a.直接通过pip安装 

pip install -U openai-whisper
pip install setuptools-rust

b.通过git仓库安装

pip install git+https://github.com/openai/whisper.git 

c.将安装包升级到仓库最新版

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

d.安装 ffmpeg,本次系统是centos8stream,可以通过下面命令安装

dnf install -y https://download1.rpmfusion.org/free/el/rpmfusion-free-release-8.noarch.rpm
dnf install -y install http://rpmfind.net/linux/epel/7/x86_64/Packages/s/SDL2-2.0.14-2.el7.x86_64.rpm
dnf install ffmpeg -y

其他系统可参考如下:

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg

# on Arch Linux
sudo pacman -S ffmpeg

# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg

# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg

# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg

2.使用

可以通过Python进行下面操作

import whisper

model = whisper.load_model("small") # 如果模型不存在,会自动下载,默认下载路径 "~/.cache/whisper"
result = model.transcribe("temp.wav") 
print(result["text"])

 

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值