whisper相关的开源项目 (asr)

code-ranger

已于 2025-05-25 23:04:22 修改

阅读量716

点赞数 21

分类专栏： AI 多媒体文章标签： whisper asr

于 2025-05-25 23:03:36 首次发布

本文链接：https://blog.csdn.net/allnlei/article/details/148214355

版权

6 篇文章

订阅专栏

3 篇文章

订阅专栏

基于 Whisper（OpenAI 的开源语音识别模型）的开源项目有很多，涵盖了不同应用场景和优化方向。以下是一些值得关注的项目：

OpenAI Whisper
- 由 OpenAI 开源的通用语音识别模型，支持多语言转录和翻译，基于 PyTorch 实现。
faster-whisper
- 使用 CTranslate2 加速推理，支持 CPU/GPU，速度比原版快 4 倍，内存占用更低。
- 适合需要高效部署的场景。API 与原始 Whisper 兼容。
WhisperX
基于faster-whisper，在 Whisper 基础上增加了：
- Word-level Timestamps（精确到词级时间戳）
  基于 wav2vec2 对齐的精准词级时间戳
- Speaker Diarization（说话人分离） 是指将包含多人对话的音频流，按不同说话人分割成独立片段的过程，核心目标是回答：
  - “谁在什么时候说了什么？”
- Phoneme-Based ASR（音素级ASR）
  针对音素（语音最小区分单位，如 “tap” 中的 /p/）优化的自动语音识别模型。
  - 细粒度识别，提升发音差异捕捉能力。
- 语音活动检测(VAD)
  其核心作用是区分有效语音段与静音/背景噪声，为后续语音处理提供纯净输入。通过仅处理有效语音段提升批处理(batching)效率。
whisper.cpp
- 纯 C/C++ 实现的 Whisper，支持量化模型（轻量级），可在树莓派、手机等边缘设备运行。
- 支持 macOS、iOS、Android 等平台。
insanely-fast-whisper
- 结合 Transformers 和 Flash Attention 2，实现极速转录（支持批量处理）。

VideoLingo
- Netflix级字幕切割、翻译、对齐、甚至加上配音，一键全自动视频搬运AI字幕组
- 使用 WhisperX 进行单词级和低幻觉字幕识别
pyvideotrans
- 支持视频字幕, 语音识别转录、语音合成、字幕翻译。
- 语音识别支持 faster-whisper和openai-whisper