faster-whisper-webui

faster-whisper-webui是一个基于faster-whisper的开源项目,内建VAD支持,能精确识别音频中的句子边界,尤其适合长音频转录。该项目提供命令行和WebUI两种运行方式,且包含API接口。用户需安装Python依赖、下载模型并选择运行模式,支持在GoogleColab中运行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

whisper开源之后,很多相关的衍生产品也开源了,比如faster-whisper,它是一个比whisper转录更快的技术实现,转录速度是whisper的4倍,并且占用的显存更少,占用显存是whisper的1/2。而我们这次要讲的是faster-whisper-webui是内置了VAD的支持,可以很精准的定位到每一句话的开始和结束,对于转录长音视频很有意义,可以防止转录长音视频出现幻听的情况。

1、安装faster-whisper-webui

1.1、faster-whisper-webui简介

faster-whisper-webui顾名思义是faster-whisper的web网页版本,当然它不单有网页版本,也可以通过像whisper的命令行方式启动,最关键的是项目内部已经整合了VAD(VAD是一种音频活动检测的算法,简单来说可以准确的把音频中的每一句话分离开来,这很好的解决了whisper在转录长音频时出现幻听的问题),如果想要了解VAD算法可以点击这里。在faster-whisper-webui中还提供了API接口的方式,我们可以通过任何编程语言调用faster-whisper-webui提供的接口。

该项目原始地址是aadnk/whisper-webui

2、克隆源码

git clone https://github.com/ycyy/faster-whisper-webui.git

3、安装依赖

pip install -r requirements.txt

这里推荐的使用python版本是3.8~3.11,如果你使用的python版本过低或太高,安装以些依赖会发生错误。具体如何升级python版本,大家可以去我的博客中阅读,这里我也给了链接

4、下载模型

先要在项目路径下创建models目录。

mkdir models
cd models

模型里的目录结构如下所示:

├─faster-whisper
│  ├─base
│  ├─large
│  ├─large-v2
│  ├─medium
│  ├─small
│  └─tiny
└─silero-vad
    ├─examples
    │  ├─cpp
    │  ├─microphone_and_webRTC_integration
    │  └─pyaudio-streaming
    ├─files
    └─__pycache__

4.1、下载faster-whisper模型

faster-whisper-webui的项目是基于faster-whisper的,所以我们需要去下载faster-whisper模型,点击这里跳转到模型下载处

这里我以下载large-v2模型为例。

apt install git-lfs
git lfs install
git clone https://huggingface.co/guillaumekln/faster-whisper-large-v2

4.2、下载silero-vad依赖

git clone https://github.com/snakers4/silero-vad.git

5、运行

5.1、命令行方式运行

python cli.py --model large --vad silero-vad --language Chinese audio.mp3

--model:指定使用的模型,可选的模型有:tiny、base、small、medium、large、large-v2

--vad:指定使用的vad类型,常见的vad类型有:silero-vad、silero-vad-skip-gaps、silero-vad-expand-into-gaps、periodic-vad

--language:指定音频中使用的语言

我们还可以指定其它的参数,例如:

python cli.py \
[--vad {none,silero-vad,silero-vad-skip-gaps,silero-vad-expand-into-gaps,periodic-vad}] \
[--vad_merge_window VAD_MERGE_WINDOW] \
[--vad_max_merge_size VAD_MAX_MERGE_SIZE] \
[--vad_padding VAD_PADDING] \
[--vad_prompt_window VAD_PROMPT_WINDOW]
[--vad_cpu_cores NUMBER_OF_CORES]
[--vad_parallel_devices COMMA_DELIMITED_DEVICES]
[--auto_parallel BOOLEAN]

如果你有多张显卡,那么你可以使用--vad_parallel_devices来指定,例如:指定使用两张显卡--vad_parallel_devices 0,1

你也可以使用这个参数--auto_parallel True会自动根据你有多少张显卡,CPU是多少核心的来自动分配(最多支持8个)。

python cli.py --model large --vad silero-vad --language Chinese --auto_parallel True audio.mp3

5.2、网页方式运行

python app.py --input_audio_max_duration -1 --server_name 127.0.0.1 --auto_parallel True

转录之后的结果有三种格式:SRT/VTT/Transcript。

5.3、切换实现方式

有两种实现可以切换,一种是whisper,还有一种是faster-whisper。这里推荐使用faster-whisper,因为速度更快,faster-whisper速度是whisper的4倍,并且占用显存要比whisper少2倍。

如果我们想要用faster-whisper,那么我们需要执行下面的命令来安装faster-whisper依赖。

pip install -r requirements-fasterWhisper.txt

如果我们想要使用whisper,那么我们需要执行下面的命令来安装whisper依赖。

pip install -r requirements-whisper.txt

我们如何切换呢?很简单添加参数即可。

python app.py --whisper_implementation faster-whisper --input_audio_max_duration -1 --server_name 127.0.0.1 --auto_parallel True

当然如果我们嫌弃这种方式太麻烦了,每次启动都要写这么多参数。那么你可以在配置文件中写。找到配置文件config.json5,然后添加你要使用的实现方式即可。

{
    "whisper_implementation": "faster-whisper"
}

6、在Google Colab中运行

具体可以参考这篇文章

7、参考文献

[1] faster-whisper-webui文档

[2] 更换pip源

[3] CentOS安装Whisper

[4] VAD算法详解

<think>好的,用户想在Ubuntu系统上安装faster-whisper库。我需要根据提供的引用资料来整理安装步骤。首先,引用[1]、[2]、[3]提到了相关项目的地址,可能需要查看这些项目的文档。 faster-whisper是基于CTranslate2和Whisper的优化版本,安装可能需要Python环境。先确认系统是否安装了Python和pip。然后可能需要安装依赖项,比如FFmpeg,因为Whisper处理音频需要它。安装命令可能是sudo apt install ffmpeg。 接下来,用pip安装faster-whisper。引用[3]的项目地址是Hugging Face的模型库,可能需要安装CTranslate2库。正确的安装步骤可能包括: 1. 安装Python和pip。 2. 安装FFmpeg。 3. 安装CTranslate2:pip install ctranslate2。 4. 安装faster-whisper:pip install faster-whisper。 另外,用户可能需要下载预训练模型,比如large-v3,使用huggingface-cli下载。此外,确保安装PyTorch,因为有些依赖可能需要它。如果用户遇到问题,可以建议他们查看项目的GitHub页面或文档,或者使用虚拟环境避免依赖冲突。最后,验证安装是否成功,运行一个测试脚本看看是否报错。</think>### 逐步安装说明 1. **安装系统依赖** 确保系统已安装 `Python 3.8+`、`pip` 和 `FFmpeg`(用于音频处理): ```bash sudo apt update sudo apt install python3-pip ffmpeg ``` 2. **安装 CTranslate2 基础库** faster-whisper 依赖高性能的 CTranslate2 推理引擎: ```bash pip install ctranslate2 ``` 3. **安装 faster-whisper** 通过 pip 直接安装: ```bash pip install faster-whisper ``` 4. **验证安装(可选)** 运行简单测试代码: ```python from faster_whisper import WhisperModel model = WhisperModel("small") # 首次运行会自动下载模型 ``` 5. **下载预训练模型(可选)** 通过 Hugging Face 下载指定模型,例如 large-v3: ```bash huggingface-cli download Systran/faster-whisper-large-v3 ``` ### 注意事项 - 建议使用虚拟环境(如 `venv`)隔离依赖。 - 若遇到 CUDA 相关错误,需确保已正确安装 NVIDIA 驱动和 PyTorch 的 GPU 版本[^3]。
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值