Whisper-Diarization 项目推荐
1. 项目基础介绍和主要编程语言
Whisper-Diarization 是一个基于 OpenAI Whisper 的自动语音识别(ASR)和说话人分割(Speaker Diarization)的开源项目。该项目的主要编程语言是 Python,适合对语音识别和说话人分割技术感兴趣的开发者使用。
2. 项目核心功能
Whisper-Diarization 项目结合了 Whisper 的语音识别能力和语音活动检测(VAD)以及说话人嵌入技术,能够识别并标记音频中每个句子的说话人。其核心功能包括:
- 语音识别:使用 OpenAI Whisper 进行语音转文字。
- 说话人分割:通过语音活动检测和说话人嵌入技术,识别并标记每个句子的说话人。
- 时间戳校正:使用 WhisperX 对时间戳进行校正和对齐,以减少由于时间偏移导致的分割错误。
- 并行处理:支持在具有足够 VRAM 的系统上并行运行 NeMo 和 Whisper,以提高处理速度。
3. 项目最近更新的功能
Whisper-Diarization 项目最近更新的功能包括:
- 命令行选项:增加了多个命令行选项,如
--no-stem
(禁用源分离)、--whisper-model
(选择 ASR 模型)、--suppress_numerals
(数字转字母以提高对齐精度)、--device
(选择设备)、--language
(手动选择语言)、--batch-size
(批处理大小)等。 - 并行处理:引入了
diarize_parallel.py
,支持在具有足够 VRAM 的系统上并行运行 NeMo 和 Whisper,以提高处理速度。 - 实验性功能:尽管并行处理功能仍处于实验阶段,但开发者欢迎用户反馈以改进该功能。
通过这些更新,Whisper-Diarization 项目在功能和性能上都有了显著提升,为用户提供了更灵活和高效的语音识别和说话人分割解决方案。